Die Erschließung des visuellen Systems durch den Ansatz des Machine Learning

Anstoß einer internationalen Kooperation zwischen der York University (Toronto) und der Westfälischen Wilhelms-Universität Münster

Antragsteller: Mathis Erichsen
Fachbereich, Studienrichtung: Fachbereich 7, Psychologie
Projekttitel: Die Erschließung des visuellen Systems durch den Ansatz des Machine Learning - Anstoß einer internationalen Kooperation zwischen der York University (Toronto) und der Westfälischen Wilhelms-Universität Münster
Fördersumme: 5.000,00 Euro
Kontakt:  Mathis Erichsen

Projektbeschreibung:

Das Sehen ist höchstwahrscheinlich eine der komplexesten Leistungen, zu denen das menschliche Gehirn fähig ist. Beispielsweise beim Blick in ein fremdes Zimmer registrieren wir in Sekundenschnelle eine riesige Fülle von Informationen und bauen eine Repräsentation dieser Außenwelt auf. Aber welche Bereiche und Objekte werden unsere Aufmerksamkeit besonders auf sich ziehen? Registieren wir zuerst den Fernseher? Fällt uns besonders das Bücherregal ins Auge? Oder ist es doch der bequem wirkende Ledersessel? Wohin werden wir zuerst schauen? Und wohin als nächstes? Diese Fragen sollten im Rahmen dieses Forschungsprojektes während eines dreimonatigen Aufenthaltes an der York University in Toronto beantwortet werden. Wissenschaftliches Ziel des Projekts war es, ein künstliches neuronales Netzwerk zu konstruieren, das mit Hilfe von Eye-Tracking-Daten darauf trainiert wird, die beim Betrachten einer Szene entstehenden Blickmuster vorherzusagen. Konkret sollte erforscht werden, welche Gesetzmäßigkeiten unabhängig von Betrachter und Szene unserer visuellen Wahrnehmung zugrunde liegen könnten. Konkret bedeutet das: Ist es möglich, ein Blickmuster über verschiedene Szenen und Betrachter hinweg, allein auf Grundlage der vorliegenden Bildinformation, vorherzusagen? Dabei interessierte nicht nur das Blickmuster an sich, sondern insbesondere dessen zeitliche Reihenfolge, also die Sequenz von Fixationen beim Betrachten einer Szene. Zusätzlich sollte eine internationel Kooperation zwischen der York University und der Universität Münster angestoßen werden, initiiert durch einen Workshop gemeinam mit Prof. Fründ von der York University in Münster.

Zur Umsetzung dieser Ziele verbrachte ich drei Monate an der York University in Toronto in der Arbeitsgruppe von Herrn Fründ, Professor für Computational Neuroscience. Im Anschluss an eine Literaturrecherche zum momentanen Forschungsstand bezüglich der Vorhersage von Fixationen begann ich mit dem Aufbau eines Modells. In einem ersten Schritt beschäftigte ich mich mit einem Baseline-Modell, das beim Betrachten einer Szene entstehende Blickmuster vorhersagt, aber noch keine zeitliche Komponente beinhaltet. Es prädiziert also nur Fixationen an sich, nicht aber deren Sequenz. Darauf aufbauend sollte dann ein weiteres Modell entwickelt werden, das zusätzlich die Sequenz der Fixationen berücksichtigt, um dessen Leistung mit der des Baseline-Modells vergleichen zu können. Alle Modelle wurden als künstliche neuronale Netzwerke konzipiert und mit einer Reihe von Eye-Tracking-Daten trainiert, bei denen Personen Fotografien natürlicher Szenen gezeigt und ihre Augenbewegungen beim Betrachten dieser aufgezeichnet wurden (Der Datensatz stammt nach Absprache mit den Autoren aus folgender Veröffentlichung: Zoyo Bylinskii, Phillip Isola, Constance Bainbridge, Antonio Torralba, Aude Oliva. "Intrinsic and Extrinsic Effects on Image Memorability", Vision Research (2015)). Leider konnte innerhalb der drei Monate trotz unterschiedlichster Herangehensweisen an die beiden beschriebenen Modelltypen keine Modellversion gefunden werden, die Fixationen und insbesondere deren Sequenz zufriedenstellend genau vorhersagte. Trotz des Erkenntnisgewinns entlang dieses Prozesses konnte das wissenschaftliche Ziel des Projekts - die Vorhersage von Fixationssequenzen, die beim Betrachten natürlicher Szenen entstehen - nicht erfüllt werden. Allerdings wurde eine Grundlage für weitergehende Forschung in diesem Bereich geschaffen.

Als ich zurück in Deutschland war, begann ich mit den Vorbereitungen für den geplanten Workshop. Nach einer kurzen Befragung in einem potenziellen Interessentenkreis von Mitarbeitern der psychologischen Fakultät der Universität Münster wurde als Thema des Workshops eine Einführung in das Python-basierte Framework Pytorch, mit dem ich auch während meines Aufenthaltes in Kanada gearbeitet hatte, sowie eine Einführung in Generative Adversarial Networks (GANs) festgelegt. Diese sind eine besondere Klasse künstlicher neuronaler Netzwerke, die in der Lage sind, Inhalte, wie beispielsweise Bilder von Gesichtern, selbstständig zu generieren. Außerdem würde Prof. Fründ einen Vortrag über seine Arbeit für Mitglieder des Otto Creutzfeldt Center for Cognitive and Behavioral Neuroscience (ein Zusammenschluss aus Forschern und Promovierenden der Medizin, Biologie, Psychologie und Sportwissenschaften, kurz OCC) halten. Der Workshop fand am 18. Dezember 2019 statt, nachdem er in potenziellen Interessentenkreisen beworben wurde; der Vortrag am Tag darauf. Während des Workshops gaben Prof. Fründ und ich einem Publikum aus unter anderem Psychologen und Biologen eine Einführung in das genannte Framework und führten dann durch eine interaktive Einführung zum Thema GANs, bei dem die Teilnehmer ihr erstes eigenes Modell aufbauen konnten (Materialien zu diesem praktischen Teil finden sich unter https://github.com/Mathis1993/DCGAN). Der Vortrag von Prof. Fründ einen Tag später fand eine breite Zuhörerschaft aus den Reihen des OCC. Prof. Fründ gab hier einen Einblick in die Nutzung von GANs im Rahmen psychophysischer Experimente.

Insgesamt kann das projekt als Erfolg gewertet werden. Zwar wurde das umfassende wissenschaftliche Ziel nicht erfüllt, aus der Arbeit in Toronto ergab ich aber ein interessanter wissenschaftlicher Diskurs. Dieser bietet die Anknüpfungspunkte für weitere Forschungsprojekte. Zudem fand während des Workshops und Vortrages ein interdisziplinärer Austausch über innovative, in immer mehr Feldern eingesetzte Methodik statt. So geknüpfte Kontakte führen möglicherweise zu weiteren Kooperationsprojekten zwischen Münster und Toronto. Damit ist der Grundstein für eine internationale Kooperation gelegt, die die Erschließung des visuellen Systems ein Stück voranbringen kann. Durch die Förderung dieses Projekts hat die WWU ihre Sichtbarkeit erhöht und sich als eine Universität positioniert, die interdisziplinären Austausch in Bezug auf State of the Art Methodik fördert.