Maschinen lernen sehen

Wie funktioniert Sehen? Wie unterscheidet man gute von schlechten Bildern? Wie filtert man aus Bildsignalen jene Informationen, die für das Erkennen wesentlich sind?

Ein MRT-Gerät in dem gerade ein Patient untersucht wird.

Wie funktioniert Sehen?

Diese Fragen beschäftigen sowohl Hirnforscher/innen als auch Computerwissenschafter/innen wie Thomas Pock, die in internationalen Kooperationen die Bildverarbeitung vorantreiben. Thomas Pock hat seit 2014 eine AITStiftungsprofessur für „Mobile Computer Vision“ am Institut für Maschinelles Sehen und Darstellen (ICG) inne. In seinen Forschungsarbeiten, bei denen er unter anderem mit Kollegen in New York und Paris kooperiert, beschäftigt er sich mit mathematischen Modellen, um „gute“ von „schlechten“ Bildern zu unterscheiden. Im Einzelnen geht es darum, aus den Bildsignalen, die Maschinen liefern, jene visuellen Informationen zu filtern, mit denen sich ein möglichst detailreiches bzw. aussagekräftiges Bild rekonstruieren lässt.

Forschungskooperation mit New York

In einer seiner aktuellen Arbeiten entwickelt Thomas Pock mathematische Methoden, um aus Magnetresonanztomographie-Signalen (MRT-Signalen) zweidimensionale Bilder zu rekonstruieren. Das Ziel: Mit so wenig Signaldaten wie möglich zu bestmöglichen Ergebnissen zu kommen. Denn je weniger Daten man benötigt, umso kürzer sind die Scanzeiten im MRT, umso mehr Patientinnen und Patienten können an einem Tag auf einer Maschine untersucht werden. Das senkt die Kosten.

In einer Forschungskooperation mit Florian Knoll und Daniel K. Sodickson vom Department of Radiology an der New York University – School of Medicine hat Thomas Pock zusammen mit seiner PhD-Studentin Kerstin Hammernik einen Algorithmus entwickelt, der genau diese Aufgabe erfüllt: qualitativ hochwertige Bilder aus den unterabgetasteten MRT-Signaldaten zu rekonstruieren, die in lediglich einem Sechstel der Scanzeiten von bisherigen MR-Scans hergestellt werden können. Von den Forschungspartnern in den USA stammen die MR-Daten, die zur Entwicklung der Methode benötigt wurden, und das Knowhow der Physik und Arbeitsweise der MR-Geräte. Thomas Pock und Kerstin Hammernik haben in Graz das mathematische Modell entwickelt, das aus den unterabgetasteten MRT-Signaldaten die Bilder rekonstruiert.

Ein Grundproblem der maschinellen Bilderkennung besteht in der schier unermesslichen Anzahl möglicher Bilder. Thomas Pock: „Wenn man alle theoretischen Bildvariationen allein bei einer Bildgröße von nur 65 mal 65 Pixel und einem Tonumfang von lediglich 256 Graustufen errechnet, dann ergeben sich daraus potenziell viel mehr verschiedene Bilder, nämlich 256^65x65˜10^10000, als es schätzungsweise Atome im Universum gibt, nämlich 10^80.“ Diese unvorstellbar große Zahl an möglichen Bildern erklärt, warum einfache Bildvergleichsdatenbanken zwangsläufig versagen müssen.

Maschinelles Lernen in Fusion mit Bildverarbeitung

„Als Menschen wissen wir, wie Bilder mit hoher Abbildungsqualität aussehen“, führt Thomas Pock aus. „Und das ist es auch, was wir Computern beibringen wollen: dass sie innerhalb von Sekundenbruchteilen Bilder erkennen und einordnen können.“ Während man früher quasi per Hand nach geeigneten mathematischen Modellen gesucht hat, um diese Aufgabe rechnerisch zu bewältigen, kombiniert Thomas Pock neue Methoden des maschinellen Lernens mit solchen der Bildverarbeitung. Konkret entwirft er Bildmodelle mit sehr vielen Freiheitsgraden, die – im ständigen Abgleich mit dem Idealbild – aus den Signaldaten zweidimensionale Bilder rekonstruieren können.

Thomas Pock: „In dem Lernproblem gibt es eine Loss-Funktion, die den Verlust feststellt und berechnet, wie sehr die momentan rekonstruierte Lösung von der Zielvorstellung abweicht – also davon, wie das Gewebe aussieht, das sich in den MRT-Daten spiegelt. Die Loss-Funktion stellt den Unterschied zum Soll fest und propagiert den Fehler zurück in das Modell. Das geschieht über die Berechnung des Gradienten der Verlustfunktion, der in die Richtung der stärksten Änderung zeigt. Auf diese Weise kann man die Modellparameter in eine Richtung lenken, sodass der Fehler kleiner wird. Das macht man so lange, bis keine Verbesserung mehr feststellbar ist.“

Auszug aus den gelernten Modellparametern. Links die Filterkerne und rechts die Bewertungsfunktionen.

Die Abbildung zeigt einen Auszug aus den gelernten Modellparametern, die im Prinzip aus einer großen Anzahl von verschiedenen Filterkernen und Bewertungsfunktionen bestehen.

Der Designschritt in den von Pock und Hammernik entworfenen mathematischen Modellen mit ihren Tausenden von freien Parametern ist von neuronalen Netzwerken inspiriert und basiert auf den Erkenntnissen aus mehr als 50 Jahren Forschung. Ausgeführt wird die Berechnung auf einem Hochleistungsrechner der TU Graz an der TU Graz. Für die Forschungsarbeiten am TU Graz-Institut wurde in Kooperation mit dem Zentralen Informatikdienst (ZID) ein Großrechner angeschafft, der mit 16 der leistungsfähigsten Grafikkarten bestückt ist, von denen jede rund vier TeraFLOPS an Rechenleistung aufweist, das heißt, jede dieser Grafikkarten kann ca. vier Billionen (4x1012) Rechenoperationen pro Sekunde ausführen.

US-Patent

„Mit unserer Methode haben wir es geschafft, in sehr kurzer Zeit MRT-Aufnahmen zu rekonstruieren, die eine ähnlich gute Qualität haben wie die derzeit erzeugten Bilder, aber wir brauchen dafür nur ein Sechstel der Aufnahmezeit“, freut sich Pock.

Die Abbildung zeigt den klaren Vorteil der gelernten Methode bei sechsfach beschleunigter Scanzeit. Ein US-Patent für diese neue Methode ist vorangemeldet, auch ein Produzent der MR-Scanner zeigt bereits starkes Interesse.

Rekonstruktion eines MRT-Schichtbildes mit Beschleunigungsfaktor 6. Links das Ergebnis einer herkömmlichen Methode, die zu starken Artefakten führt, in der Mitte die Rekonstruktion mit der entwickelten Methode und rechts als Vergleich die Rekonstruktion aus den vollständigen Daten.

Aufsatz in „Acta Numerica“

Seine bisherigen theoretischen Erkenntnisse hat Thomas Pock vor Kurzem in einem ausführlichen Review-Artikel festgehalten, den er zusammen mit Antonin Chambolle, Professor am Centre de Mathématiques Appliquées an der Ecole Polytechnique in Paris, verfasst hat. Titel der Arbeit: „An Introduction to Continuous Optimization for Imaging“. Erscheinen wird die Arbeit in der derzeit renommiertesten Zeitschrift für Mathematik, dem in Cambridge herausgegebenen Journal „Acta Numerica“.

Kontakt

Thomas POCK
Univ.-Prof. Dipl.-Ing. Dr.techn.
Institut für Maschinelles Sehen und Darstellen
Inffeldgasse 16/II
8010 Graz
Tel.:+43 316 873 5056
Fax: +43 316 873 5050
pocknoSpam@icg.tugraz.at

Maschinen lernen sehen