Künstliche Intelligenz im Dienste der Mittelalterforschung – Dominique Stutzmann (IRHT Paris) zu Gast an der WWU

Bericht zur Sitzung des Arbeitskreises Digital Humanities, WWU Münster, 18. April 2019

Die Erfassung maschinenschriftlicher Texte in digitalen Bildobjekten durch Verfahren der automatischen Texterkennung (OCR), ist heutzutage nahezu problemlos möglich. Für mittelalterliche oder frühneuzeitliche Handschriften klang dies allerdings lange Zeit noch wie ferne Zukunftsmusik. Die unterschiedlichen Schriftbilder der Schreiber*innen und die zahlreichen Abkürzungen sind nur einige der Probleme, die auch die Lesekompetenzen paläographisch gut ausgebildeter Historiker*innen gelegentlich herausfordern. Entsprechend liegen noch viele potentielle Quellen in den Archiven und Bibliotheken, deren zahlreiche Informationen bislang noch nicht recherchierbar sind. Welchen Beitrag können hier die jüngsten Entwicklungen im Bereich der Künstlichen Intelligenz (KI) beziehungsweise des maschinellen Lernens leisten, um das handschriftliche Kulturgut für die Forschung und die interessierte Öffentlichkeit nutzbar zu machen?

Am 17. und 18. April war der Historiker und Paläograph Dominique Stutzmann vom Pariser Institut de recherche et d’histoire des textes (IRHT) zu Gast am Historischen Seminar der Universität Münster, um über die Potentiale des maschinellen Lernens für die geschichtswissenschaftliche und insbesondere mittelalterliche Forschung zu diskutieren. Im Forschungskolloquium „400-1500. Mittelalter“ und im Arbeitskreis Digital Humanities stellte er das von ihm geleitete internationale und -disziplinäre Projekt HIMANIS (HIstorical MANuscript Indexing for user-controlled Search) vor. Es ermöglichte erstmals, die handschriftlich überlieferten Urkundenbücher des Pariser Trésor des Chartes aus dem 14. und 15. Jahrhundert in ihrer Breite zu erschließen und im Volltext durchsuchbar zu machen. Das 2018 offiziell abgeschlossene Projekt ist damit ein Vorreiter, von dessen Erfahrungen und Ergebnissen nachfolgende Forschungsvorhaben lernen und profitieren können. Hier geht es zu seiner Präsentation.

Die Maschine lernt das Lesen historischer Handschriften

Die Urkundenbücher sind eine wichtige Quelle für die Geschichte Frankreichs und des europäischen Mittelalters im 14. und 15. Jahrhundert. Bereits seit dem 17. Jahrhundert wurden sie erforscht, aber viele, insbesondere die Bücher aus dem 15. Jahrhundert, waren kaum erschlossen und vor allem nicht systematisch genutzt worden. Das machte das Korpus mit seinen rund 200 Bänden und etwa 80.000 Seiten zu einem idealen Kandidaten für die Weiterentwicklung der Handschrifterkennung (HTR) und der probabilistischen Indexierung historischer Dokumente. Es mussten allerdings zuvor noch wesentliche Teile der Urkundenbücher des Trésor des Chartes digitalisiert werden – ein an sich schon ressourcenintensives Unterfangen.

Um einen Text aus Bildern auszulesen, muss die Maschine zunächst deren Aufbau (layout) erkennen, dass es etwa verschiedene Textbereiche gibt, in denen Wörter zeilenweise aneinandergereiht, getrennt, zusammen oder abgekürzt geschrieben werden können und so weiter. Im Projekt HIMANIS wurde der Fokus, anders als bei der herkömmlichen OCR, nicht auf Buchstaben, sondern auf Worteinheiten gelegt. Der Vorteil hierbei ist, dass die Dokumente nicht buchstabengetreu transkribiert werden müssen, um recht zuverlässig durchsuchbar zu sein.[1] Selbst wenn der hinter den Bilddateien liegende Index Fehler enthält, ist es dennoch möglich, einzelne Ausdrücke, Phrasen oder Abkürzungen über das Keyword Spotting zu finden und damit einen ersten Zugriff auf die Manuskripte zu erhalten.

Maschinelles Lernen – „Künstliche Intelligenz ernährt sich von menschlicher Intelligenz“

Im maschinellen Lernen werden die eingesetzten Modelle üblicherweise anhand von Trainingsdaten angelernt, um nach wiederholten Lernphasen auch unbekannte Daten eigenständig verarbeiten zu können. Für das Trainingsset wurde ein Teil der Digitalisate des umfassender erforschten Bestandes aus dem 14. Jahrhundert automatisiert mit TEI-Textversionen bereits vorhandener Editionen verknüpft (text-image alignment). Dadurch lernte das optische Modell, wie die Bildpunkte interpretiert werden sollen. Zusätzlich wurde das hinter dem Modell stehende Neuronale Netz unter anderem mit normierten Daten für Französisch und Latein sowie für Eigennamen versorgt und auch vorhandene Inventare dienten zur Verbesserung der Indexierung.

Von der Qualität der eingespeisten Daten, der Sorgfalt des Trainings und der Evaluation hängt wesentlich die Qualität des allgemeinen Anwendungsergebnisses ab. Die hunderten unterschiedlichen Schreiber, die Abkürzungen in lateinischer und französischer Sprache sowie die kursiven Schreibschriften stellten auch für die maschinelle Analyse der digitalen Bilder eine Herausforderung dar. Da das Modell vor allem auf Basis der älteren Bestände trainiert wurde, sind die Indexierungsergebnisse für die jüngeren Urkundenbücher ungenauer.

Der Prozess des maschinellen Lesens und Indexierens ist recht technisch und komplex. Das Modell analysiert alle Pixelkonfigurationen und produziert als Ergebnis mathematische Deskriptoren (lattices), die interpretiert und als Worthypothesen indexiert werden. Alle möglichen Hypothesen bleiben erhalten und können über die Rechercheoberfläche angezeigt und evaluiert beziehungsweise korrigiert werden. Was man als Nutzer*in sieht, ist eine nachträgliche Kalkulation der wahrscheinlichsten Position des gesuchten Wortes auf der Zeile. Die Korrektheit des Ergebnisses wird mit dem confidence level gemessen. Dieser signalisiert, wie wahrscheinlich es ist, dass auch bei der Wiederholung des Texterkennungsprozesses wieder dasselbe Ergebnis ausgegeben wird. Für die methodische Reflexion des Suchverfahrens haben solche Werte eine große Relevanz.

Die „Black Box“ öffnen

Dominique Stutzmann betonte in seinen Vorträgen, dass man die automatisiert erzeugten Ergebnisse immer kritisch hinterfragen müsse. Die Datenausgabe sei immer nur so gut wie die Dateneingabe. Zur Zeit sei die Künstliche Intelligenz noch nicht so weit, dass ihre Ergebnisse ohne die menschliche Prüfung angenommen werden könnten. Die Unsicherheiten die sich im Prozess des maschinellen Lesens und Lernens ergeben können, verdeutlichen, dass noch mehr qualitätsgesicherte, frei verfügbare Daten, etwa in Form von Normdaten, nötig sind. Für Historiker*innen ist es daher wichtig, ein genaues Verständnis für diese Prozesse zu entwickeln, um die Anforderungen, Ergebnisse und möglichen Fehler zu verstehen und die Daten nicht als objektive Wahrheiten anzunehmen. Im Rahmen des offenen Gesprächs im Arbeitskreis Digital Humanities konnten einige Bedarfe und Herausforderungen für die Weiterentwicklung der Handschrifterkennung herausgearbeitet werden.

Idealerweise sollten die entwickelten Modelle weiterlernen, etwa durch die Korrekturen, die immer noch von Nutzer*innen eingegeben werden können. Aber leider werden diese im Fall von HIMANIS nicht mehr weiterverarbeitet. Ein Grund hierfür ist die aktuelle Förderpolitik, denn Forschungsvorhaben sind zumeist für begrenzte Zeiträume konzipiert. Das Geld zum weiteren aktiven Betrieb fehlt dann schlicht. Dieses Problem wurde inzwischen erkannt. In Deutschland hat sich jüngst beispielsweise die Initiative Nationale Forschungsdateninfrastruktur (NFDI) gebildet, deren erklärtes Ziel es ist, Projekte auch über ihre Förderlaufzeit hinaus zu betreuen und bestenfalls weiterzuentwickeln.[2]

Inhaltlich weisen die komplexen historischen Dokumente Elemente auf, auf welche die optischen Modelle von HIMANIS nicht eigens trainiert wurden, die also auch nicht gezielt adressiert werden können. Zu denken ist hier beispielsweise an Herrschermonogramme, Initialen, bildliche Darstellungen verschiedenster Art oder auch Wasserzeichen. Auch gilt es für künftige Vorhaben herauszuarbeiten, welche Funktionen hinsichtlich der Formulierung von Suchanfragen oder der Ergebnisausgabe von Nutzer*innen gewünscht werden. Wichtig ist es zudem, immer wieder auf offene Standards und Modelle zu bestehen, um nicht nur die Nachnutzbarkeit der produzierten Daten zu gewährleisten, sondern auch die Nachnutzung der Methoden und deren Übertragung auf weitere Anwendungsfälle zu unterstützen. In den neuen Projekten HORAE und HOME (History of Medieval Europe) sollen entsprechend auch die eingesetzten Modelle des maschinellen Lernens offen publiziert werden,[3] was bei HIMANIS leider nicht der Fall ist.

Der Blick in die Zukunft

Dass die Anwendung von Verfahren der Künstlichen Intelligenz „ausschlaggebende, bahnbrechende Innovationen“ für die Geistes- und Geschichtswissenschaften sind, betonte Dominique Stutzmann nachdrücklich. Aber auch für Kulturinstitutionen wie Archive und Bibliotheken sind die Techniken interessant. Das Projekt HIMANIS zeigt, dass die Digitalisierung nennenswerte und einzigartige Ergebnisse liefern kann. So wird es möglich sein, größere, semi-erschlossene oder bisher weniger populäre Quellenbestände – so sie denn digitalisiert vorliegen – für die öffentliche und wissenschaftliche Nutzung inhaltlich zu erschließen. Gleichzeitig sollte die forschende Zunft aber auf dieser Grundlage auch Fragen entwickeln, deren Beantwortung mit diesen Mitteln erst möglich wird. Das sei das Kerngeschäft der Geisteswissenschaften. Wir brauchen Fragen, die über das Denkbare hinausgehen, um die Anwendungen zu schaffen, die deren Beantwortung ermöglichen.

Weiterlesen:

Über den Vortrag von Dominique Stutzmann im Kolloquium „400-1500. Mittelalter“ berichtete auch Matthias Kayß von der ULB. Der Beitrag ist hier einzusehen.

Save the date!

Die nächste Sitzung des Arbeitskreises Digital Humanities findet am Freitag, dem 17. Mai 2019, von 14-16 Uhr statt.

Wo? Raum 613, Service Center Digital Humanities/ZB Sozialwissenschaften, Scharnhorststraße 103/109

Inhalt: Philipp Schneider vom Institut für vergleichende Städtegeschichte wird im Rahmen eines Werkstattberichts zum Thema „Heterogene Diskurslandschaften im Spiegel der Sozialen Netzwerkanalyse. Das Beispiel aufgeklärter Publikationen im Fürstentum Lippe an der Wende zum 19. Jahrhundert“ vortragen.

Anmerkungen:
[1] Die von der Europäischen Union geförderte Plattform Transkribus liefert demgegenüber auf dem Gebiet der Handschriftenerkennung und automatisierten Transkription sehr gute Ergebnisse.
[2] Der DHd-Verband hat hierzu neben anderen wichtigen Akteuren eine Stellungnahme veröffentlicht, die hier einzusehen ist. Weiterführende Informationen zur NFDI werden fortlaufend auf der Webseite der DFG angeboten.
[3] Für mehr Informationen zu den künftigen Projekten, siehe die Präsentation von Dominique Stutzmann.

DH-Blog Universität Münster

Jahre

Autoren

Filtern nach Monat

Filtern nach Kategorie

Filtern nach Schlagwörtern