Maschinelles Sehen: TU Graz-Forscher definieren…

Maschinelles Sehen: TU Graz-Forscher definieren neuen Stand der Technik

Mit dem Vorbild der Sehrinde im menschlichen Gehirn, dem sog. visuellen Cortex, entwickelte die Forschungsgruppe rund um ERC-Preisträger Thomas Pock neue mathematische Modelle und Algorithmen als Grundlage für schnellere und intelligentere Bildverarbeitungsprogramme.

Originalfotos und Gegenüberstellung von algorithmusbasierten Berechnungen

Die TU Graz verbessert die Bildverarbeitung mit Hilfe von Learning: Hier wird gezeigt, wie der Algorithmus die Bilder verändert damit er sie "schöner" findet. © Pock – TU Graz/ICG

Bildmaterial zum Download am Ende der Meldung

Unser visueller Cortex kann in Sekundenbruchteilen Bilder erfassen und Objekte erkennen, selbst wenn diese kaum oder nur bruchstückhaft zu sehen sind. Mit ein Grund für diese fantastische Höchstleistung ist die hocheffiziente hierarchische Schichtenarchitektur des visuellen Cortex. Sie filtert die visuellen Informationen, erkennt Zusammenhänge und vervollständigt das Bild anhand vertrauter Muster. Der Prozess dahinter wird in seiner Komplexität nach wie vor kaum verstanden. Zwar existieren mittlerweile Deep Learning-Algorithmen, die bei gewissen Mustererkennungsaufgaben die menschliche Leistungsfähigkeit erreichen können oder teilweise sogar übertreffen. Ein Nachteil dieser Algorithmen ist aber, dass man kaum nachvollziehen kann was sie gelernt haben, wie sie funktionieren oder wann sie Fehler machen.

Diesem Verständnis war Thomas Pock vom Institut für Maschinelles Sehen und Darstellen der TU Graz im Rahmen seines ERC-Starting-Grant-Projekts HOMOVIS (High Level Prior Models for Computer Vision) auf der Spur. Er beschäftigte sich intensiv mit der Frage, wie sich bekannte Arbeitsweisen des visuellen Cortex mithilfe mathematischer Modelle berechnen und auf Bildverarbeitungsanwendungen übertragen lassen. Fünf Forschungsjahre, 41 Publikationen und ein Patent später haben der Forscher und seine Arbeitsgruppe umfassendes Wissen gesammelt, das neue Bildverarbeitungsalgorithmen für verschiedenste Anwendungen ermöglicht.

Anregungen bei Wertheimer und Euler

Pock orientierte sich in seiner Arbeit an den Gestaltgesetzen der Wahrnehmung von Max Wertheimer. Der Hauptbegründer der Gestaltpsychologie hat mit diesen Gesetzen den Prozess des menschlichen Sehens zu erklären versucht, bei dem Reize und Sinneseindrücke zu einem großen Ganzen zusammensetzt werden. „Der Mensch kann schon anhand einzelner Punkte oder subjektiver Konturen (Scheinkonturen) lückenhafte bzw. unvollständige Objekte korrekt erkennen. Das menschliche Gehirn ergänzt die fehlende Bildinformation automatisch. Beispielsweise, indem es die Punkte über möglichst glatte Kurven miteinander verbindet“, so Pock. Dieses Phänomen der Gestaltfindung haben Pock und sein Team erstmals mithilfe mathematischer Modelle beschrieben, die auf Euler’s Elastica beruhen – einer berühmten Gleichung des Mathematikers Leonhard Euler, mit der Kurven minimalster Krümmung berechnet werden können.

Darstellung in einem höherdimensionalen Raum

Auf Basis von Euler’s Elastica entwickelte Pocks Arbeitsgruppe neue Algorithmen, mit denen bestimmte krümmungsabhängige Bildverarbeitungsprobleme gelöst werden können. Die Lösung ist demzufolge umso leichter, wenn die (2D-)Bilder und deren Merkmale als Datenpunkte in einem dreidimensionalen Raum dargestellt werden. „In der dritten Dimension bekommen wir mit der Orientierung der Objektkanten eine zusätzliche Variable, erklärt Pock. Auch das ist dem menschlichen Sehen nachempfunden und geht zurück auf die bahnbrechenden Arbeiten der beiden Nobelpreisträger David Hubel und Torsten Wiesel, die 1959 feststellten, dass der visuelle Cortex aus orientierungssensitiven Schichten aufgebaut ist.

Aus mathematischer und informatischer Sicht liegt der größte Vorteil dieser dreidimensionalen Einbettung darin, dass Bildverarbeitungsprobleme mit Hilfe konvexer Optimierungsalgorithmen gelöst werden können. In der mathematischen Optimierung gilt die Grenze zwischen konvexer und nicht-konvexer Optimierung als jene große Barriere, die lösbare von nicht lösbaren Problemen unterscheidet. „Somit können wir für alle gegebenen Eingangsbilder garantiert das beste Bild berechnen – natürlich nur in Bezug auf das verwendete mathematische Modell“, so Pock.

Ausblick

Nun arbeiten Pock und sein Team an verbesserten Modellen, die die bekannten strukturellen Eigenschaften des visuellen Cortex mit Deep-Learning-Algorithmen kombinieren. Das Ziel: Die Entwicklung von Modellen, die genauso gut funktionieren wie derzeitige Deep-Learning-Algorithmen, aber auch ein tieferes Verständnis über die gelernten Strukturen erlauben. Erste Erfolge gibt es bereits bei der Rekonstruktion von Computertomographien und Magnetresonanzbildern. „Mit den neu entwickelten Algorithmen lassen sich nun trotz weniger aufgenommener Daten Bilder mit höchster Qualität rekonstruieren. Das spart Zeit und Rechenleistung und somit auch Kosten“, erklärt Pock.

Das ERC-Forschungsprojekt HOMOVIS wurde vom European Research Council mit insgesamt rund 1,4 Millionen Euro gefördert. Es ist an der TU Graz im „Fields of Expertise“ Information, Communication & Computing verankert, einem von fünf strategischen Schwerpunktfeldern der Universität.

Kontakt

Thomas POCK
Univ.-Prof. Dipl.-Ing. Dr.techn.
TU Graz | Institut für Maschinelles Sehen und Darstellen
Tel.: +43 316 873 5056
pocknoSpam@icg.tugraz.at

Demo-Schilder: Exzellenz gibt es nicht im Spartarif

Jetzt unterzeichnen: Petition #unisretten

Spürroboter mit vier großen Rädern, Sensoren und Kameras auf einem Geröllhügel bei einer Feuerwehrübung.

Forschung

Spürroboter auf vier Beinen für sichere Feuerwehreinsätze

Aufbau von Linsen auf einem Labortisch, der mit rotem Licht ausgeleuchtet ist. Grünes Laserlicht geht durch einige Linsen.

Forschung

TU Graz-Physikerin präsentiert mobiles Gerät zur hochpräzisen Messung von Luftschadstoffen

Anfang

Gegenüberstellung eines Porträts von Albert Einstein, einmal mit technischen Bildfehlern, einmal mit Korrektur — Das Porträt von Albert Einstein wurde mithilfe des „Elastica Modells“ aus unvollständigen Daten rekonstruiert. Foto: Ferdinand Schmutzer, 1921. © Creative Commons Public Domain (https://commons.wikimedia.org/wiki/File:Einstein_1921_portrait2.jpg)

(Anm.: Die technischen Bildfehler wurden zu Testzwecken von Pock selbst verursacht. Das Originalbild ist fehlerfrei.)

© Beau Wade from New York, NY, United States; CC-by 2.0 (https://de.wikipedia.org/wiki/Datei:Parigi-piramidi_louvre.jpg) — Das Beispiel zeigt die Bildentrauschung mithilfe des Elastica-Modells. Foto: Beau Wade from New York, NY, United States; © CC-by 2.0 (https://de.wikipedia.org/wiki/Datei:Parigi-piramidi_louvre.jpg)

(Anm.: Die technischen Bildfehler wurden zu Testzwecken von Pock selbst verursacht. Das Originalbild ist fehlerfrei.)

TU Graz-Informatiker sitzt am Computer — Thomas Pock, Informatiker am Institut für Maschinelles Sehen und Darstellen der TU Graz, entwickelte neue Bildverarbeitungsalgorithmen zur Korrektur von Unschärfen, defekten Pixel oder anderen technischen Bildfehlern. © Lunghammer – TU Graz