Encoding Cultures united: Erfahrungsbericht zur Joint MEC and TEI Conference 2023

23. Oktober 2023

| Digitale Methoden & Tools, Forschung, Veranstaltungen

Encoding Cultures united: Erfahrungsbericht zur Joint MEC and TEI Conference 2023

von

Maximilian Greshake

Der Austausch von Erkenntnissen und Forschungsmethoden ist einer der wichtigsten Bausteine wissenschaftlichen Arbeitens. Die Kommunikation zwischen den verschiedenen geisteswissenschaftlichen Disziplinen fördert das Verständnis und die Bewahrung kultureller Äußerungen und Prozesse. Auch die Literatur- und Musikwissenschaft stehen nunmehr vor den technischen Herausforderungen des 21. Jahrhunderts, wobei besonders die Text Encoding Initiative (TEI) und die Music Encoding Initiative (MEI) wesentliche Schritte der digitalen Transformation gehen. Sie sind bemüht, die vielzähligen Texte aus Menschenhand in einer maschinenlesbaren Struktur zu kodieren und zur Verfügung zu stellen.

Vom 04. bis 08. September 2023 trafen sich beide Coding-Communities in Paderborn und gingen bei der Joint MEC and TEI Conference in regen Austausch. Obwohl die MEI und die TEI bis in die technischen Strukturen hinein eng miteinander verwandt sind, kamen bislang nur vereinzelt Kontakte zustande. In Paderborn waren die „Encoding Cultures“ allerdings vereint. In diesem Beitrag teile ich meine Erfahrungen, die ich als Teilnehmer bei der TEIMEC gesammelt habe. Die ersten beiden Konferenztage boten die Möglichkeit, in verschiedenen Workshops zusammenzukommen und die Verbindung von TEI und MEI praktisch zu erfahren. Von Mittwoch bis Freitag wurden zahlreiche Vorträge gehalten und Diskussionen zu Projekten und wissenschaftlichen Problemstellungen geführt.

Erster Workshoptag: Integrating TEI and MEI

Der Montag bot gleich den optimalen Einstieg in die Thematik der aufeinandertreffenden Encoding Cultures. Im Workshop „Integrating TEI und MEI“ beschäftigten sich die Teilnehmer mit der zentralen Frage: Wie verbinde ich die beiden XML-basierten Kodierungsformate, beispielsweise wenn ich Musiknoten in einem transkribierten Brief habe? Wie lässt sich also Musik im Fließtext darstellen? Workshopleiter waren vier Mitarbeiter aus dem Forschungsprojekt „Beethovens Werkstatt“, die sich 2020–2022 im dritten Modul des Projekts mit genau diesen Fragestellungen beschäftigt hatten.

Der zunächst naheliegendste Weg war schnell eruiert: das Notenbeispiel einfach als Bild zu integrieren. Doch damit wäre der abgebildete Notentext nicht maschinenlesbar und die Kodierung somit unvollständig. Stattdessen sollte besser das Notenbeispiel im MEI-Format kodiert und ins Dokument eingefügt werden. Ein wesentlicher Problempunkt ist dabei aber das TEI-Schema, auf dem das Dokument beruht – es besitzt zunächst keinerlei Wissen über MEI.

Abhilfe verspricht das <notatedMusic>-Element, welches als Container für die MEI-Kodierung fungiert. Mit Pointern lassen sich so die externen Kodierungen der Notenbeispiele in das TEI-Dokument einbetten. Sodann kam aber der berechtigte Einwand einer Teilnehmerin: Führt dieses Vorgehen mit verschiedenen Dokumenten nicht schnell zu Zugriffsproblemen, vor allem bei der Nutzung von APIs? In der Tat: Es gibt noch eine dritte, bessere Lösung. Die MEI-Kodierung direkt im Container, also im selben Dokument vorzunehmen. Dieses Vorgehen forderte zusätzlich die Anpassung des TEI-Schemas und die Implementierung des MEI-Namespace. Vonstatten ging dies per Schema-Metasprache ODD (One Document Does it All), einem TEI-Dokument, mit dessen Hilfe die benötigten Module implementiert werden, um einen validen Code für die MEI-Integrierung zu gewährleisten.

MEI-Kodierung, integriert in TEI per <notatedMusic>-Element

Nach erfolgreicher Kodierung und Validierung des Workshop-Beispiels stand abschließend noch die Visualisierung an. Die Teilnehmer erfuhren im letzten Part, wie sie das TEI-Dokument per XSLT (Extensible Stylesheet Language Transformation) ins HTML-Format konvertieren können, um den transkribierten Musikerbrief im Internet darstellen zu können. Die MEI-Inhalte werden dabei durch die Notensatzbibliothek Verovio in Grafiken umgewandelt, um dann als Noten im Fließtext zu erscheinen. Das Verständnis von der MEI-Integrierung in TEI-Dokumenten erwies sich konferenzübergreifend als essentiell. So tauchte das <notatedMusic>-Element immer wieder in Vorträgen und Workshops auf.

Zweiter Workshoptag: Publishing TEI and MEI Data

Vor allem für kleinere Projekte stellt die Veröffentlichung von Forschungsergebnissen eine Herausforderung dar, da die Entwicklung eigener Infrastrukturen zur Verbreitung von Editionen oftmals mit einem sehr großen Aufwand verbunden ist. Abhilfe verspricht dabei der „TEI Publisher“. Die Entwickler*innen Wolfgang Meier, Magdalena Turska und Lars Windauer stellten am zweiten Konferenztag ihre „Instant publishing Toolbox“ im Workshop „Publishing TEI and MEI with TEI Publisher“ vor.

TEI Publisher (https://teipublisher.com/index.html)

Das auf eXist-db basierende OpenSource-Programm ermöglicht eine einfache Visualisierung von XML-Dokumenten und deren Ausgabe in verschiedenen Formaten. Es eignet sich demnach als optimale Grundlage für die Veröffentlichung von Texteditionen. Beispiele sind die Alfred-Escher-Briefausgabe oder die Edition der Reisetagebücher Johann Conrad Fischers. Der Import der TEI-Dokumente ist simpel. Auch andere Dateiformate wie etwa Word-Dokumente können problemlos hochgeladen werden, da die docx-Dateien direkt ins TEI-Format umgewandelt werden. Die Teilnehmer des Workshops konnten dies durch den exemplarischen Import kurzer Kochrezepte selbst ausprobieren.

Ein zentrales Element des TEI-Publishers ist die einfache ODD-Customization. Die Möglichkeit, die TEI-Module in einer grafischen Oberfläche zu verwalten, erweist sich als besonders vorteilhaft. Die benötigten Module können somit schnell und übersichtlich eingebunden werden, und das Ergebnis ist direkt nachvollziehbar. Auch die Einbindung von Musiknotation in Form von MEI-Kodierung kann schnell über den Modulimport geregelt werden. Hierfür erwies sich der Integrating-Workshop vom Vortag als hilfreich.

TEI Publisher – ODD-Customization (https://teipublisher.com/img/editor.png)

Der TEI-Publisher bietet für die Annotation von Textinhalten vielzählige Funktionen. Vor allem das name-tagging geht mit dem eingängigen „Annotation Template“ einfach vonstatten. Als Visualisierungsmöglichkeiten steht die diplomatische oder die edierte Ansicht zur Verfügung, die durch das Element um weitere Funktionen wie Highlight-Stufen erweiterbar ist. Für konkrete Editionsprojekte erlaubt der TEI-Publisher schließlich die Erstellung von Applikationen, um in die jeweiligen Projektwebsites eingebettet zu werden. Mit wichtigen Funktionen wie die Indexierung der annotierten Textinhalte wurde den Workshop-Teilnehmern ein äußerst nützliches Werkzeug vermittelt.

Beginn der Vortragsreihen

Auch die Pausen zwischen den Workshops und Vorträgen wurde von den Konferenzteilnehmern ausgiebig genutzt, um mit Kolleg*innen ins Gespräch zu kommen. Die Aula des Heinz- Nixdorf-Instituts (Mo–Di) sowie der Vorraum im Universitätsgebäude (Mi–Fr) waren in den Kaffeepausen entsprechend voll von lebhaften Unterhaltungen. Man erfuhr von verschiedensten Projekten und lernte die Leute dahinter kennen. Besonders hervorzuheben ist dabei die Offenheit und Hilfsbereitschaft der TEI- und MEI-Community. Die Begegnung auf Augenhöhe sorgte jederzeit für eine freundliche Atmosphäre.

Kaffeepause im Heinz-Nixdorf-Institut (Foto: Dennis Ried)

In den folgenden drei Tagen hielten eine Vielzahl an Referenten Vorträge über ihre laufenden Forschungsprojekte. Neben der Vorstellung ihrer Methoden und Ergebnisse standen besonders die technischen Herausforderungen im Vordergrund. Entsprechend konnte man auch in zahlreichen Interessengruppen (IGs) spezifische Fragestellungen diskutieren. Ich entschied mich bei der Auswahl der Vortrags-Sessions für ein ausgeglichenes Programm. Obwohl mein fachlicher Hintergrund vorrangig im Bereich der Musikwissenschaften liegt, erfuhr ich von spannenden literaturwissenschaftlichen Projekten und ihrer Herangehensweise an die TEI-Kodierung in der digitalen Editionspraxis. Drei Vorträge ragten dabei für mich besonders heraus:

1. Music Encoding mit MEI-Friend

Für die MEI-Community ist es längst Konsens, dass die Kodierung von Musik ein zeitintensives Unterfangen darstellt. Aus diesem Grund stellt der MEI-Friend sowohl für Anfänger*innen als auch für fortgeschrittene Nutzer*innen des MEI-Formats ein äußerst nützliches Werkzeug dar, um zeitgleich zur Kodierung das entsprechende Notenbild in graphischer Darstellung zu sehen. Die Nutzerfreundlichkeit steht dabei für die Entwickler David Weigl und Werner Goebel im Vordergrund. Der MEI-Friend ist kostenlos, ermöglicht kollaboratives Arbeiten, ist ohne Installation im Browser nutzbar und hat ein multilinguales User-Interface. Weitere Vorteile sind die GitHub-Integration sowie die Solid-Integration (Social Linked Data). Die sofortige SVG-Darstellung des kodierten Materials ermöglicht letztlich eine direkte Fehlerkontrolle und stellt somit eine willkommene Zeitersparnis für viele digitale musikwissenschaftliche Projekte dar.

MEI-Friend (https://mei-friend.mdw.ac.at/)

2. Das Tasso in Music Project

Wie TEI und MEI wunderbar vereint werden können, zeigten die Verantwortlichen des „Tasso in Music Projects“. Am Dienstag stellten Emiliano Ricciardi und Craig Stuart Sapp ihre digitale Edition der Poesie Torquato Tassos und ihre vielzähligen Analysefunktionen vor. Nicht nur enthält die Arbeit sowohl Textedition per TEI als auch Musikedition per MEI, sondern sie liefert zusätzliche Such- und Filterfunktionen, die es ermöglichen, das Werk Torquato Tassos nach Belieben zu erkunden.

In musikalischer Hinsicht kann nach Tonhöhen, Intervallen oder Rhythmen gesucht werden oder ein quantitativer Abgleich vorgenommen werden. Derweil ermöglicht die Quersuche per Konkordanzen, Varianten von Textzeilen in anderen Werken zu finden. Die Analysefunktionen überzeugten durch ihre graphisch und farblich optimierte Darstellung. Die quantitativen Auswertungen tragen mit dazu bei, ein für die Forschung neuartiges Bild von Kompositionsentwicklungen zu zeichnen.

Tasso in Music Project, Pitch density Analysis (https://www.tassomusic.org/analysis/pitch-density/)

3. Deep Learning OMR

Während die Literaturwissenschaften schon länger mit Programmen wie Transkribus oder OCR4all in der Lage sind, sowohl Druck- als auch Handschriften mit dem Computer zu erkennen und zu transkribieren, steht die Musikwissenschaft mit der Optischen Notenerkennung (OMR) noch am Anfang. Aufgrund der Komplexität finden die computergestützten Verfahren vor allem im Bereich der Mensuralnotation Verwendung. Diese Notenschrift ist vergleichsweise simpel aufgebaut und enthält weniger Zeichen, was die Operationalisierung vereinfacht. Einen großen Schritt machte die OMR schließlich mit dem Aufkommen von Deep Learning Systems. Dazu präsentierte Jorge Calvo-Zaragoza eine Fallstudie zur nutzerzentrierten Gestaltung von Machine-Learning-Arbeitsabläufen.

Das zusammen mit seinem Team entwickelte Erkennungssystem erreichte bei Mensuralnotentexten eine Erkennungsfehlerquote von 2-3%, was bereits ein beachtlicher Wert ist (je niedriger desto besser). Davon fielen rund ein Prozent allein auf sogenannte Ligaturen, also spezielle Notenzeichen, die mehrere Noten miteinander verbinden. Diese Zeichen konnte das System besonders schlecht erkennen, da es insgesamt zu wenig Ligaturen im Gesamtkorpus gab. Zur Behebung dieses Klassifikationsfehlers wurde ein synthetisches Korpus erstellt, um mit verschiedenen Kodierungen zu experimentieren. Ziel war es, den besten Kompromiss zwischen Korpusgröße und Leistung auszuwählen. Schließlich konnte der Aufwand für die Erkennung und Nachbearbeitung um den Faktor 10 reduziert werden, sodass eine vollständige und korrekte Kodierung einer Standard-Notenbuchseite in weniger als einer Minute möglich ist.

Der Vortrag regte durchweg großes Interesse für das Thema an. Nicht zuletzt, da auch die Ausweitung des Deep Learning Systems auf die heutzutage verwendete Notenschrift, die Common Music Notation (CMN), angesprochen wurde. Mit dem Ligaturen-Beispiel wurden zudem zwei der wichtigsten Aspekte des digitalen Arbeitens thematisiert: die Menge der Daten und die Möglichkeit einer standardisierten Verarbeitung.

Ein gelungener Abschluss

Einen gebührenden Abschluss der Konferenz bot die Closing Keynote von Till Grallert. Mit Humor und viel sachlichem Verständnis mahnte er in seinem Vortrag zum Thema „Mind the <gaps>! Digital editing in a world in crisis“ zur Selbstreflexion digitaler Forschungskulturen. Am Beispiel der Erforschung arabischer Zeitschriften machte Till Grallert deutlich, wie unterschiedlich die Zugangsbedingungen verschiedener globaler Communities zu Strom, Internet, Archiven und Kodierungsformaten sind. Es höre nicht auf bei bekannten Problemen wie dem „brain-drain“. Die englische Sprache müsse sich ebenso ihrer digitalen Hegemonie gegenüber benachteiligten Sprachen bewusst werden. So steht besonders Arabisch vor zahlreichen digitalen Problemen: Die Sprache besitzt weitaus mehr Zeichen und Fonts, es gibt große regionale Unterschiede in der Wortbedeutung und es gibt eine andere Leserichtung. Dies verursacht schon bei der XML-Kodierung Konflikte: Elementinhalte mit arabischer Sprache werden von rechts nach links gelesen, aber der restliche Code von links nach rechts.

Hinzu kommen „Geo Fencing“, „Paywalls“ und „Copyright Regimes“, die die Zugangsbedingungen zu Forschungsquellen – besonders in nicht-europäisch-westlichen Ländern – erschweren. Dies führte laut Grallert zu einer Angst vor schwierigen Forschungsthemen, was wiederum den Trend der euro-zentrierten Forschung begünstige. Er bot aber auch Lösungswege an und formulierte einen Appell an die globale Forschungsgemeinschaft. Grallerts Motto war eingängig: „Build what we need with what we have“. Er forderte freien Zugang zu kulturellen Gütern, rief dazu auf, die Bandbreite der verwendeten Quellen über den europäischen Raum hinaus zu erweitern und vertrat einen interessanten, minimalistischen Ansatz: Menschen sollten die Ressourcen und Infrastrukturen nutzen, auf die sie bereits zugreifen können, anstatt gezwungen zu werden, eigene Infrastrukturen aufzubauen, die sie nicht aufrechterhalten können.

Grallerts Appell, zu nutzen, was bereits frei zur Verfügung steht, passte meines Erachtens sehr gut zur Konferenz. Open-Source und Open-Access Bestrebungen sowie die Betonung der hilfsbereiten Community gehörten zu den Kernpunkten der TEIMEC: Auch die Reaktionen der Teilnehmer*innen zeigten, dass die Konferenz ein voller Erfolg war. Wann das nächste vergleichbare Event stattfinden wird, ist noch unklar. Allerdings sei es allen Interessierten, von Bachelorstuden*tinnen bis Doktorant*innen, empfohlen.

Kategorien: Digitale Methoden & Tools, Forschung, Veranstaltungen

Schlagwörter: Bericht, Konferenz, MEI, TEI