„Die Maschine nährt sich von der menschlichen Intelligenz“

Dominique Stutzmann informiert über den aktuellen Stand der automatisierten Erschließung mittelalterlicher Handschriften
Dominique Stutzmann
Dominique Stutzmann referiert über das HIMANIS-Projekt
© ULB

Wer sich die Forschungsarbeit von Mittelalter-Historiker*innen vorstellt, denkt erst einmal an alte Folianten und Urkunden in Bibliotheken und Archiven. Nur wenige denken dabei an „KI“, also künstliche Intelligenz oder besser: „Maschinelles Lernen“. Und doch haben Forscher*innen der Geschichtswissenschaft seit einigen Jahren genau diese Technologie für sich entdeckt. Einer von ihnen ist Dominique Stutzmann vom „Institut de recherche et d’histoire des textes“ (IRHT) – vergleichbar mit den deutschen Max-Planck- oder Helmholtz-Instituten. Am Mittwoch, den 17.04.2019, stellte er im Rahmen des Forschungskolloquiums „400-1500. Mittelalter“ das von ihm geleitete Projekt HIMANIS (HIstorical MANuscript Indexing for user-controlled Search) vor. Die Ergebnisse der dreijährigen, im April 2018 abgeschlossenen Arbeit werden von vielen Fachwissenschaftler*innen als Quantensprung für die zukünftige Forschung mit historischen Quellen angesehen.

Der Paläograph Stutzmann verfolgt zusammen mit seinen europäischen Projektpartnern eine zunächst einfach klingende Idee: eine Volltextsuche. Was mittlerweile Standard ist im Umgang mit digitalen Texten wie eBooks und Online-Journals, galt bis vor kurzem für historische Handschriften als blanke Science-Fiction. Der Grund: Die Handschriftentexte liegen nicht als digitale Texte vor. Die in den vergangenen Jahren intensiv betriebene Digitalisierung alter Bestände in Bibliotheken und Archiven hat zwar hochauflösende digitale Fotos der Quellen hervorgebracht. Die darin enthaltenen Texte mussten aber nach wie vor von lesenden Menschen entziffert werden – ein Unterfangen, das selbst für fortgeschrittene Historiker*innen eine große Herausforderung ist. Überhaupt sei, so Stutzmann, die stark begrenzte menschliche Effektivität ein Hemmnis für diese Forschung. Bedenkt man, dass jeder erschlossene Text unser bisheriges wissenschaftliches Verständnis der Geschichte auf die Probe stellen kann, sollte niemand zögern, die Maschinen das intelligente Verhalten der menschlichen Texterkennung schnellstmöglich zu lehren.

Dominique Stutzmann
Eine große Herausforderung – für Mensch wie für Maschine: das Entziffern von mittelalterlichen Handschriften
© ULB

Die Entwicklung eben dieses maschinellen Lernens ist denn auch der Kern dessen, was Stutzmann und seine Kolleg*innen im HIMANIS-Projekt geleistet haben. Bereits das verarbeitete Material ist beeindruckend und prominent: rund 200 Bände des „Trésor des Chartes“ aus dem französischen Nationalarchiv. Der gesamte Korpus umfasst insgesamt etwa 80.000 Seiten mehrsprachiger Urkunden- und Formelbücher, die die französische Königskanzlei zwischen 1302 und 1486 produziert hat. Verschiedene Schreiber haben sich hier mit ihren individuellen Handschriften, eigenen Abkürzungen und Variationen verewigt. Diese Handschriften zu erschließen und im Internet durchsuchbar bereitzustellen, ist schon allein eine aufwändige und überaus lohnende Aufgabe.

Diskussion
"Die eigentliche Aufgabe ist die Verbesserung der automatischen Erschließung", betonte Torsten Hiltmann bei der anschließenden Diskussion
© ULB

Die Schlüsselaufgabe des Projekts ist aber die Erstellung eines Index, also eines Verzeichnisses von Schlagwörtern, das so aufbereitet ist, dass die Begriffe maschinell weiterverarbeitet werden können. „Deep Indexing“ heißt das Verfahren, mit dessen Hilfe mathematische Merkmale der Zeichen automatisch erkannt und anschließend unter Mitarbeit der wissenschaftlichen Community evaluiert und so mit Sinn und Bedeutung versehen werden.
Mögliche Hypothesen der Maschine, welches Wort sie da tatsächlich erkannt hat, bleiben dabei erhalten; über einen Algorithmus werden Wahrscheinlichkeiten für jede erkannte Zeichenfolge ermittelt. Die maschinellen Ergebnisse bleiben so für die Fachleute transparent. Die Forschenden korrigieren über manuelle Zuordnungen diesen Wert und verbessern damit kontinuierlich die Qualität der Suchmaschine.

Für die Wissenschaftler*innen im Bereich Digital Humanities ist diese menschliche Mitarbeit aber nur ein Zwischenschritt zur vollständigen Automatisierung der Texterkennung historischer Handschriften. „So wichtig der Korpus als Forschungsobjekt ist, die eigentliche Aufgabe liegt in der Verbesserung der automatisierten Erschließung“, ergänzt Prof. Dr. Torsten Hiltmann, Leiter des „Service Center für Digital Humanities“ (SCDH) an der WWU. Nur mit diesen technischen Mitteln wird es in Zukunft möglich sein, die unzähligen Handschriften im Internet den Forschenden für ihre eigentliche kritische wissenschaftliche Arbeit direkt zugänglich zu machen. Dominique Stutzmann bringt es auf den Punkt: „Heute ernähren wir die Maschinen mit menschlicher Intelligenz, so dass wir sie morgen dann unbeschränkt für die eigentlich historische Forschung mit diesen Schriften einsetzen können“. Aber auch die kritische Reflexion dieser Methoden müsse dabei zu einem wichtigen Bestandteil der Geschichtswissenschaft werden.

Veranstaltung
Vortrag und Diskussion stießen auf reges Interesse bei Studierenden und Forschenden
© ULB