SCDH-Schulung Visualisierung und Annotation von Texten – Studierendenbericht

Am Freitag, den 14. Januar 2022 wurde vom Service Center for Digital Humanities der WWU ein virtueller Workshop zum Thema Visualisierung und Annotation von Texten unter der Leitung von Dr. Jan Horstmann veranstaltet. Es nahmen geisteswissenschaftlich Forschende der WWU sowie Studierende des Zertifikats Digital Humanities teil.

Nach einer kurzen Vorstellungsrunde ging es zunächst um die Theorie zur Annotation sowie Visualisierung: Digitale Texte können mithilfe entsprechender Programme mit Annotationen versehen werden. Das kann man sich so vorstellen, wie wenn man mit farbigen Stiften einen Text auf einem Blatt Papier mit Markierungen, Anmerkungen und Notizen versieht, nur eben in digitaler Form. Diese Annotationen können visuell in den unterschiedlichsten Formen, beispielsweise sogenannten Wordclouds oder Liniendiagrammen dargestellt werden, je nach dem, welche Darstellung die größte Aussagekraft bietet. Außerdem kann der Text zum Beispiel hinsichtlich der Häufigkeit bestimmter Wörter, des Auftretens von Wörtern mit einer vorgegebenen Ähnlichkeit zueinander oder des Vorkommens von ganzen Phrasen analysiert werden, wobei die verschiedenen Analysemethoden auch kombiniert werden können.

Im Workshop konnten die Teilnehmenden dies mit dem Programm CATMA selbst ausprobieren. Anschließend gab es einen Gastvortrag von Prof. Dr. Silke Schwand (Universität Bielefeld), die sich mit Vergleichen und analytischem Vokabular beim Annotieren befasst: „Vergleichspraktiken annotieren: Analytisches Vokabular gemeinsam entwickeln“.

Der erste Teil des Programms befasste sich mit dem Annotieren. Dazu wurde E.A. Poes Kurzgeschichte The Tell-Tale Heart als Beispieltext genutzt. Als erste Übung mit CATMA wurden Annotationen an diesem Text vorgenommen, die den zu Übungszwecken angelegten Tags – etwa literarische Stilfiguren wie Ausrufe oder Parallelismen – entsprechen. So markierten die Teilnehmenden entsprechende Textpassagen und besprachen ihre Ergebnisse in Kleingruppen.

*Abbildungen 1+2: Die zu Übungszwecken erstellten Tags, d. h. Kategorien, denen annotierte Textpassagen zugeordnet werden konnten.* *Es handelt sich um die Tags „Haltung der Erzählinstanz“ sowie „Stil“ mit entsprechenden Subtags.* Zusätzlich kann eine Gewichtung einzelner (Sub-)Tags vorgenommen werden, hier beispielsweise auf einer Rating-Skala, wie wichtig die jeweilige Textstelle/Annotation erscheint bzw. wie sicher diese Kategorisierung ist.

*Abbildung 3: Die Annotationen werden ihren Tags entsprechend farblich im Text dargestellt. Hier ist eine Doppelbelegung derselben Textstelle möglich, ohne Übersichtlichkeit einzubüßen.*

CATMA kann zusätzlich Texte halbautomatisch annotieren. So können beispielsweise bestimmte Worte im Text automatisch bestimmten Tags zugeordnet werden.

Abbildung 4: Ansicht des Bearbeitungsbereichs im Annotate-Modul. Auch kollaboratives Arbeiten ist in CATMA möglich. So können die persönlichen Annotationen bei Bedarf im Verbund mit den Annotationen anderer am Projekt beteiligter Personen dargestellt werden. Auch das Annotieren anderer, gemeinsamer Textkollektionen ist möglich, wenn diese entsprechend ausgewählt werden.

Der zweite Programmteil des Workshops führte in das Analyze-Modul ein, mithilfe dessen diverse Anfragen gestellt werden können, die Daten zum Text ausgeben. In einem zweiten Schritt können diese visualisiert werden. Hier kann der Text auch ohne jegliche Annotationen verwendet werden. Auch dieses Modul wurde nach einer kurzen Einführung eigenständig erprobt und anhand von Beispielaufgaben für Analysen genutzt.

*Abbildung 5: Ansicht des Analyze-Moduls. Auf der linken Seite können* voreingestellte Anfragen gestellt werden, etwa zu Worthäufigkeiten. Über „Build Query“ können zusätzlich eigene Anfragen erstellt werden, die beispielsweise die Anzahl derjenigen Wörter ausgeben, die eine 70%ige Ähnlichkeit mit „heart“ haben, oder wie oft das Wort „mad“ in der Nähe des Wortes „me“ vorkommt. Auf der rechten Seite können diverse Visualisierungsformen ausgewählt werden.

Eine beispielhafte Anfrage ist die Ausgabe einer Wortliste. Diese wird in CATMA als Liste aller Wörter, die eine Häufigkeit größer als Null haben, formalisiert. Zu beachten ist hier, dass der gesamte hinterlegte Text durchsucht wird, falls demnach Verlagsangaben o.ä. vorhanden sind, müssen diese zunächst aus der Menge des zu analysierenden Textes eliminiert werden. In Abbildung 6 ist zu erkennen, dass das Wort „the“ mit 140 Fundstellen am häufigsten vorkommt. Diese Phrase wurde ausgewählt, um sie in einem „KWIC“ (d. i. Keyword in Context) zu visualisieren.

Abbildung 6: Anzeige der KWIC-Liste zum Wort „the“. Beim Klick auf eine konkrete Fundstelle wird man zur entsprechenden Stelle im Text geführt (zur Ansicht s. Abb. 3). Zusätzlich lässt sich erkennen, dass bei CATMA die Worte indexiert werden, d. h. jedes Wort eine Nummer erhält und sich so eindeutig auffinden lässt. Dem Ausschnitt „was the sense of“ sind beispielsweise die Indizes 319 bis 322 zugeordnet.

Eine weitere Möglichkeit der Visualisierung von Häufigkeitslisten ist der Distributionsgraph. Hier wird das Vorkommen einzelner Phrasen im Verlauf des Textes dargestellt, indem ihre Häufigkeit in jeweils einem Zehntel des Gesamttextes ermittelt und zu einem kontinuierlichen Graphen verbunden wird. An dieser Stelle zeigt sich beispielhaft eine der Schwierigkeiten von Visualisierungen: Einerseits korrespondieren die mathematisch ermittelten 10 %-Schritte nicht zwangsläufig mit der inhaltlichen Ebene der Kurzgeschichte, anderseits kann anhand der Voreinstellungen nicht abgebildet werden, ob sich die Phrase gleichmäßig in den Zehnteln verteilt oder beispielsweise im vierten Zehntel zehnmal hintereinander das Wort „I“ steht. Dies muss im Hinblick auf eine konkrete Forschungsfrage unbedingt berücksichtigt werden.

Wenn statt ausschließlich Wörtern auch die Annotationen visualisiert werden sollen, sollten mögliche Unklarheiten oder Ambiguitäten möglichst auch in der Visualisierung kenntlich sein, da der Anspruch an Visualisierungen häufig ist, die „Wahrheit“ über die ermittelten Informationen abzubilden. Folglich gewinnt die sogenannte visual literacy an dieser Stelle an Relevanz: Um korrekte und sinnvolle Schlussfolgerungen anhand der Informationsvisualisierungen ziehen zu können, ist die Kompetenz zum Lesen, aber auch zum Erstellen solcher Visualisierungen notwendig.

Abbildung 7: Anzeige des Distributionsgraphs der Häufigkeit der Phrase „I“ im Verlauf der Kurzgeschichte. Im unteren linken Bildschirmteil wird deutlich, welches Ergebnis der Häufigkeitsliste in der rechten Bildschirmhälfte visualisiert werden soll. Die Wortliste befindet sich, wie schon in Abbildung 6, im oberen linken Bildschirmteil.

Neben der grafischen Darstellung als Doubletree bietet CATMA außerdem die Möglichkeit zur Darstellung der Analyseergebnisse als Wortwolke. Die wohl populärste Visualisierungsform für Wortmengen lässt sich hier auf vielfältige Weise optisch anpassen, etwa die Anzahl der aufgenommenen Worte, deren Anordnung oder die Schriftgrößen. Hierbei sind die sieben visuellen Variablen zu beachten (Form, Größe, Helligkeitswert, Muster, Farbe, Richtung, Position). Ein Grundsatz für wissenschaftliche Visualisierungen lautet, dass pro semantischer Kategorie möglichst wenige der Variablen angewandt werden sollte, konsequent bedeutet dies: so viele Variablen wie nötig, jedoch so wenige wie möglich!

Abbildung 8: Visualisierung der Worthäufigkeiten in der analysierten Kurzgeschichte als Wordcloud. Einzelne Wörter können bei Bedarf aus der Wolke entfernt werden, indem an entsprechender Stelle auf „Remove“ geklickt wird. In Verbindung mit den Schiebereglern unterhalb der Wordcloud lässt sie sich so individuell anpassen. Über die drei Punkte am oberen rechten Bildschirmrand lässt sie sich als Grafikdatei exportieren.

Weiterführende Informationen sowie Tutorials und Manuals zum Ausprobieren finden sich unter https://catma.de/. Dort können niedrigschwellig ein eigener Account und kostenfrei eigene Projekte angelegt werden. CATMA kann neben lateinischen Schriftzeichen auch zahlreiche weitere Schriftzeichen verarbeiten, etwa kyrillische, griechische oder arabische. Der Workshop des SCDH konnte neben theoretischer Reflexion zur Funktion und zu Grenzen von Annotation sowie zur Visualisierung von Daten gleichzeitig einen praktischen Einstieg in das Programm CATMA bieten. Schließlich gilt Annotation als relevanter hermeneutischer Beitrag und wird als kulturelle Praxis seit Jahrhunderten angewandt. Das Hands-On-Format führte zu einer gewinnbringenden Symbiose von Theorie und praktischer Anwendung in der eigenen Forschung.

SCDH-Schulung Visualisierung und Annotation von Texten – Studierendenbericht

SCDH-Schulung Visualisierung und Annotation von Texten – Studierendenbericht

Kommentare

Schreibe einen Kommentar Antworten abbrechen

Weitere Beiträge

Wir sind umgezogen

Von ungelutschten Drops, Sprachmodellen und maschinenlesbarer Intertextualität

Die DH an der Uni Münster setzen zum Höhenflug an

SCDH-Abschied von X (vormals Twitter)