„Für die KI ist ein Bild nur ein Feld aus Zahlen“

Thomas Pock forscht am Institut für Maschinelles Sehen und Darstellen der TU Graz an der Bildverarbeitung mittels Künstlicher Intelligenz. Diese bietet positive Anwendungsmöglichkeiten, hat aber auch Gefahren.

Ein Mann sitzt am Schreibtisch und blickt in einen Computermonitor, auf dem ein computergeneriertes Modell eines menschlichen Herzens zu sehen ist.

Thomas Pock sieht vor allem in der Medizin viele positive Anwendungsbereiche für KI. Bildquelle: Lunghammer - TU Graz

News+Stories: KI-generierte Texte und Bilder sind derzeit große Diskussionsthemen. Wo liegen die technischen Unterschiede?

Thomas Pock: Neuronale Netzwerke, die für Sprache und für Bilder verwendet werden, sind mittlerweile sehr ähnlich gebaut. Das Schlagwort dabei ist „Transformer“, was nichts anderes bedeutet, als dass wenn ein Wort an einer Stelle eines Textes vorkommt, es sehr wahrscheinlich ist, dass an einer anderen Stelle ein ähnliches Wort vorkommt. Beim Wort „Wald“ ist es beispielsweise sehr wahrscheinlich, dass auch bald „Grün“ oder „Holz“ zu finden ist – kommen solche ähnlichen Wörter vor, so wird das Wort „Wald“ auch wichtiger im Satz. Die KI versucht also, an anderen Stellen im Text Wörter zu finden, die das eine Wort verstärken. Diesen Mechanismus nennt man „Attention“. Das wird beim Generieren von Sätzen genutzt. Diese Wahrscheinlichkeiten kann man mit den Transformern lernen. Und ähnliche Architekturen werden auch in der Bildverarbeitung eingesetzt. Wenn ich zum Beispiel eine Straße sehe, ist vielleicht an einer anderen Stelle des Bildes ein Auto oder ein Mensch oder ein Haus zu sehen. Da zerlegt man das Bild in sogenannte Patches, also kleine Bildausschnitte und die werden dann wie Wörter in einem Text behandelt.

Wie lässt sich in einfachen Worten die Funktionsweise einer KI erklären, die mit Bildern arbeitet?

Pock: Es kommt darauf an, was man mit der Bildverarbeitung machen möchte. Wenn man Objekte erkennen möchte, dann ist das Bild der Input für die KI und dann werden Rechenoperationen ausgeführt, bei denen gewisse Korrelationen mit dem Bild berechnet werden. In den nächsten Schritten werden diese Korrelationen weiter verarbeitet und zum Schluss kommt dabei eine Ja-Nein-Entscheidung raus. Ist das ein Auto oder nicht, ist das ein Mensch oder nicht?

Wenn bei Fotofiltern, wie wir sie aus Social Media kennen, Bilder verändert werden, was geschieht dabei?

Pock: Meistens ist es eine Architektur, die ein Bild bekommt, Informationen aus dem Bild extrahiert, diese Informationen dann aber wieder in ein Bild umwandelt. Das Schlagwort dabei ist das sogenannte U-Net, das ist eines der am häufigsten zitierten Paper im Bereich von neuronalen Netzwerken, weil es von der Architektur her wie ein U aussieht. Es kommt ein Bild rein, es wird in seine Merkmale zerlegt und verkleinert, dann wird es wieder vergrößert, indem die vorher extrahierten Merkmale verarbeitet werden, und am Ende kommt erneut ein Bild raus.

Momentan funktioniert es aber auch deswegen so gut, weil wir durch die Digitalisierung und die digitalen Kameras eine große Menge an Daten haben

Für die Bildausgabe nutzt die KI dann aber auch nur das, was sie vorher gelernt hat, beziehungsweise womit sie gefüttert worden ist?

Pock: Für die KI ist ein Bild nur ein Feld aus Zahlen, wie eine große Matrix. Jeder Intensitätswert ist eine Zahl und mit diesen Zahlenfeldern arbeitet die künstliche Intelligenz. Sie führt damit Rechenoperationen aus und zum Schluss kommt wieder ein Zahlenfeld heraus, das ein Bild ergibt, wenn man es visualisiert. Mathematisch gesehen ist es also relativ banal.

So kurz zusammengefasst, klingt das vielleicht banal. Ich nehme einmal an, der Weg bis dorthin hat aber einige Jahre an Forschung hinter sich...

Pock: Ja natürlich, wenn man weiß, wie es geht, ist es immer einfach. Momentan funktioniert es aber auch deswegen so gut, weil wir durch die Digitalisierung und die digitalen Kameras eine große Menge an Daten haben. Da hat man mittlerweile Zugriff auf Milliarden von Bildern. Es gibt Datensätze mit fünf Milliarden Bildern und auf der anderen Seite haben wir auch die Rechenpower, die durch moderne Grafikkarten zur Verfügung steht.

Die stetig wachsende Rechenpower ist klarerweise auch ein Punkt. Was kann man sich denn diesbezüglich noch erwarten, wenn die Rechenleistung weiter in die Höhe geht?

Pock: Man kann dann immer größere Netzwerke trainieren. Die Netzwerke sind jetzt schon riesengroß, die haben Parametergrößen von 150 Millionen bis zu einer Milliarde Parameter, die neuesten ChatGPT Netzwerke sogar noch mehr. Etwas überspitzt könnte man sagen, dass diese Netzwerke nichts anderes tun, als die gelernten Daten effizient zu komprimieren. Mehr Rechenleistung erhöht hier natürlich die Geschwindigkeit enorm und damit auch die Möglichkeiten, noch größere Netzwerke mit noch mehr Parametern zu lernen.

Natürlich müssen die Ärzt*innen letztendlich immer noch selbst die Diagnose stellen.

Was kann KI im Bereich Bilder bereits und wo tut sie sich noch schwerer? Gerade Hände und Füße werden hier immer wieder als Beispiel für Problembereiche genannt, aber wo liegen die großen Herausforderungen?

Pock: Was KI im Bereich Bildverarbeitung sehr gut kann, ist neue Bilder aus jenen Bildern zu generieren, mit denen sie trainiert wurde. Sie kann aber keine grundsätzlich neuen Bilder erzeugen, sondern sie zerlegt die Daten und kann sie wie ein Puzzle wieder zusammensetzen. Da gibt es etwa die Anwendung Stable Diffusion, die wurde mit Milliarden von Bildern trainiert. Dort kann man einen Prompt eingeben, dass man etwa eine Alpenhütte im Stil von Van Gogh in den französischen Alpen haben möchte und bekommt ein Bild. Die KI hat dieses Bild aber nicht neu generiert, sondern sie hat Van Gogh-Bilder gesehen, sie hat Alpenhütten gesehen und einfach die Bildinformation kombiniert. Das ist ähnlich wie in der Sprachverarbeitung mit ChatGPT. Aber wer weiß, vielleicht ist das schon „echte“ künstliche Intelligenz?

Wo sehen Sie den Nutzen von KI in der Bildverarbeitung?

Pock: Das hängt davon ab, wie man Nutzen definiert. Wenn es darum geht, eine Firma zu betreiben, die damit Geld verdient, gibt es natürlich viele Möglichkeiten. Welcher Nutzen für die Menschheit oder für den Mensch an sich daraus entsteht, das ist eine schwierige Frage. Mir persönlich liegt der medizinische Bereich am meisten am Herzen. Dort kann die künstliche Intelligenz etwa Radiolog*innen sehr gut unterstützen, um noch schneller und besser Pathologien in Bildern zu finden. Durch die besser werdenden Aufnahmeverfahren mit höheren Auflösungen gibt es eine riesige Menge an Daten und daher wird es immer schwieriger, kleine Pathologien zu finden. Wenn sie mit sehr vielen Daten trainiert worden ist, kann die KI hier sehr schnell und sehr zuverlässig Tumore oder Veränderungen finden. Das ist eine gute Unterstützung für Radiolog*innen, aber auf keinen Fall ein Ersatz. Natürlich müssen die Ärzt*innen letztendlich immer noch selbst die Diagnose stellen.

Es geht also rein um Effizienzsteigerung und Assistenz?

Pock: Ja, die notwendige Assistenz zur Effizienz- bzw. Genauigkeitssteigerung geht damit einher, dass man immer bessere Aufnahmeverfahren mit immer höheren Auflösungen zur Verfügung hat. Auf der anderen Seite kann KI auch helfen, bessere Bilder zu generieren. Beispielsweise brauchen Magnetresonanztomographien durch gewisse physikalische Limits irrsinnig lange und mithilfe von KI kann man die Bildrekonstruktion verbessern, sodass man aus weniger Daten bessere Bilder bekommt.

Dieses Interview mit Thomas Pock ist Teil des TU Graz Dossiers „Künstliche Intelligenz”. Weitere Dossiers finden Sie unter www.tugraz.at/go/dossiers.

Auf der anderen Seite hört man häufig, dass gerade im Bildbereich mit KI fragliche oder auch gefährliche Dinge angestellt werden. Einerseits die Social Media Filter, die eigenartige oder verfälschte Ergebnisse auswerfen oder Bild-Fakes und Video-Fakes, die immer wieder die Runde machen. Wo liegen da in dem Bereich die größten Gefahren oder Herausforderungen?

Pock: Die Gefahr ist, dass man polarisiert, politische Entscheidungen verändert und die Bevölkerung in eine falsche Richtung lenkt. Das passiert ja schon tagtäglich mit Trollen, mit Chatbots, mit Deepfakes. Ein Beispiel: Der Kiewer Bürgermeister Wladimir Klitschko wurde mit Hilfe von Deepfake-Methoden „emuliert“ und hat dadurch mit Politiker*innen aus Deutschland fake-telefoniert. Diese Gefahren existieren und man muss schauen, dass die Bevölkerung sich diesen Gefahren bewusst ist. Man kann heutzutage relativ einfach in das Gewand einer berühmten Person schlüpfen und mit deren Stimme jemanden anrufen. Mit sehr hoher Wahrscheinlichkeit wird das nicht erkannt. Was man schon vor Jahrzehnten im Fernsehen bei Mission Impossible gesehen hat, ist zumindest über Videoübertragung Realität geworden.

Gibt es Möglichkeiten oder wird an Verfahren gearbeitet, um so etwas erkennen zu können? Oder ist das ein Katz- und Mausspiel, weil sich die Fake-Technologie laufend verbessert und dadurch immer schwieriger zu erkennen ist?

Pock: Wenn es eine Fake-Technologie gibt, dann wird man wahrscheinlich auch Technologien erfinden können, die das erkennen. Es ist wie in der Spieltheorie: Es gibt zwei Spieler und einer probiert immer besser zu sein als der andere. In der Spieltheorie heißen solche Optimierungsprobleme Min-Max-Games. Wenn die Fake-Technologie weiß, wie sie erkannt werden kann, dann kann sie wieder verbessert werden usw. Das führt dazu, dass die prüfende KI, die als Diskriminator bezeichnet wird, den Fake nicht mehr erkennen kann. Ein Beispiel für dieses Katz-und-Maus-Spiel ist Adversarial Training. Das wurde unter anderem sehr erfolgreich bei sogenannten generativen neuronalen Netzwerken eingesetzt. Es gibt ein Netzwerk, das generiert Bilder und dann gibt es ein zweites Netzwerk, das erkennen muss, ist das jetzt ein generiertes Bild oder ein echtes Bild. Man trainiert den Bild-Generator und den kontrollierenden Diskriminator dahingehend, dass einer immer probiert, besser als der andere zu sein. Das geht so weit, bis die generierten Bilder so gut sind, dass der Diskriminator sie nicht mehr von echten Bildern unterscheiden kann.

Schauen wir auf das Positive: Welche guten Anwendungen gibt es aus Ihrer Sicht und womit können wir in nächster Zeit rechnen?

Pock: Speziell in der Medizin habe ich ganz gute Einblicke. Im Bereich Mustererkennung, zum Beispiel Muttermalerkennung, gibt es schon sehr gute Algorithmen. Die werden bereits routinemäßig eingesetzt. Es gibt Algorithmen, die Pathologien im EKG erkennen können, und das besser als Kardiolog*innen und vor allem komplett ermüdungsfrei. Dazu gibt es auch schon einige Arbeiten. Ich selbst arbeite mit Kardiolog*innen und Forscher*innen zusammen, die Herzmodellierung machen, um zum Beispiel Herzrhythmusstörungen zu erkennen. Und das passiert nicht mittels EKG, sondern mit normalen Smartwatches, die Pulskurven, sogenannte PPG Signale, aufzeichnen. Zudem kann man Bilder nun mit sehr viel besserer Genauigkeit rekonstruieren, benötigt also immer weniger Daten im Bereich Computertomographie und Magnetresonanz. Man kann aus MR- und CT-Bildern automatisiert Organe modellieren. Da ist personalisierte Medizin das große Schlagwort.

Ich mache ein MR von einem Menschen, kann das Herz segmentieren, mache dazu ein Herzmodell und kann dann etwa überprüfen, wie gut bestimmte Geräte wie Herzschrittmacher funktionieren werden. Solche Lösungen gibt es bereits. Was kann man in Zukunft erwarten? Im Bereich generativer Modelle kann man wohl sehr viel erwarten. Es wird wahrscheinlich in Richtung Videos gehen, dass man nur mit ein paar eingegebenen Schlagworten kurze Videos erzeugen kann – erste Versuche damit gibt es ja bereits. Das wird sicher für die Filmindustrie und die Spielindustrie sehr interessant werden. Man kann Musik erzeugen, man kann Sprache erzeugen und irgendwann einmal kann man Musik und Sprache und Filme gemeinsam erzeugen. Dahin wird es, glaube ich, gehen. Echte künstliche Intelligenz, so wie man sie in Lehrbüchern definiert findet, die sehe ich noch nicht ganz. Ich weiß zwar, dass es heutzutage „en vogue“ ist, alle möglichen gelernten Algorithmen als KI zu bezeichnen. Aber ich sage dann immer scherzhaft, KI bedeutet „Keine Intelligenz“. Was bedeutet eigentlich künstliche Intelligenz? Da hat jeder seine Lieblingsdefinition. Das intelligente Verhalten von Lebewesen, von Menschen, von Tieren nachzuahmen oder in die Richtung zu kommen, da sind wir noch ein Stück weit davon entfernt.

Kann ein Mensch jemals ein System schaffen, das ihn übertrifft? Ist das überhaupt möglich? Oder kann man nur versuchen, dem immer näher zu kommen?

Ist das nicht generell ein Problem von KI, dass immer Menschen dahinterstehen, die sie entwerfen, entwickeln, modellieren?

Pock: Dazu muss man sich auch fragen: Kann ein Mensch jemals ein System schaffen, das ihn übertrifft? Ist das überhaupt möglich? Oder kann man nur versuchen, dem immer näher zu kommen? Es gibt zwei Schienen. Es gibt Narrow AI, das ist das, was wir momentan sehen. Das heißt, es gibt AI-Module, die spezielle Aufgaben sehr gut lösen können. Die gibt es meistens in den Bereichen, wo sehr viele Daten zur Verfügung stehen. Diese Module können sehr gut Autos in Bildern erkennen, die können sehr gut Bewegungen in Bildern erkennen oder sehr gut Tumore in CT-Bildern erkennen. Aber so wirklich eine breite AI, Broad AI, gibt es nicht. Man kann also nicht sagen, es gibt fundamentale Algorithmen, die egal, welche Frage man stellt, eine passende Antwort liefern. Obwohl man sagen muss, dass die neuesten Entwicklungen rund um ChatGPT schon sehr stark in die Richtung einer sehr breiten künstlichen Intelligenz gehen, vorerst aber nur im Bereich Sprache.

Ist es dann auch immer ein Faktor, von welchem Menschen die KI entwickelt wird, da dann eventuell ein gewisser Bias einfließt?

Pock: Bias ist ein extrem wichtiger Aspekt. Wenn man sich ansieht, wer der oder die typische AI-Entwickler*in ist: Die ist wahrscheinlich Mitte 30, lebt irgendwo in Amerika und ist in den meisten Fällen weiß. Dieser Bias wird natürlich dann auch abgebildet. Und da ist es sehr wichtig, dass man in Zukunft darauf achtet, dass alle Bevölkerungsschichten, alle Altersgruppen, männlich, weiblich, divers, dort abgebildet werden. Das ist momentan sicher nicht der Fall. In den Daten, mit denen man trainiert – vorher hatten wir ja schon die Social Media Filter erwähnt -, gibt es gewisse Stereotype und die trainierten Modelle geben dann genau diese Stereotype (oder Bias) wieder.

Das ist dann immer auch die Trainingsfrage, was gebe ich rein? Dazu heißt es ja: Bias in, Bias out…

Pock: Bias ist ja prinzipiell nicht schlecht. Jeder Mensch hat einen Bias, weil Bias bedeutet ja so ein A-priori-Wissen. Wenn ich zum Beispiel mit dem Auto fahre und ich sehe ein Kind am Straßenrand gehen, dann habe ich einen Bias, dass ich da aufpassen muss, weil das gefährlich werden könnte. Also ist Bias grundsätzlich nichts Schlechtes. Man muss nur aufpassen, welcher Bias zu einer Ungleichbehandlung oder Benachteiligung führt, weil er ein Vorurteil in sich trägt. Wie kann man die erkennen? Das ist leider nicht so einfach.

Sie möchten die aktuellen Stories, News, Forschungsgeschichten, Interviews oder Blogbeiträge der TU Graz direkt auf Ihr Smartphone oder in Ihren E-Mail-Eingang erhalten? Abonnieren Sie kostenfrei den TU Graz-Telegram-Newsletter.

Kontakt

Thomas POCK
Univ.-Prof. Dipl.-Ing. Dr.techn.
TU Graz | Institut für Maschinelles Sehen und Darstellen
Tel.: +43 316 873 5056
thomas.pocknoSpam@tugraz.at

„Für die KI ist ein Bild nur ein Feld aus Zahlen“