Veranstaltungen
Schreibe einen Kommentar

Semantic Web und Wikidata. Konzepte formaler Beschreibungs- und Abfragesprachen

Bericht zur Sitzung des Arbeitskreises Digital Humanities, WWU Münster, 1. März 2019

Vor 30 Jahren, im März 1989, legte der Physiker und Informatiker Tim Berners-Lee am Kernforschungsinstitut CERN den Grundstein für das uns heute so selbstverständlich gewordene World Wide Web. Der Idee nach sollte eine Infrastruktur geschaffen werden, die den Informationsaustausch unabhängig vom jeweiligen Computersystem mittels eines einheitlichen Übertragungsstandards ermöglicht. Anders als beim bis dahin etablierten Internet, das ein Netzwerk von Computern war, wurden hier nicht mehr die Rechner, sondern per Hyperlink Dokumente miteinander verbunden. Doch Tim Berners-Lees Vision ging noch weiter. Er erträumte ein Internet, in dem Computer auch dazu in der Lage wären, die in den Dokumenten enthaltenen Informationen zu verstehen und zu verarbeiten – geboren war die Idee vom Semantic Web.

Der Gedanke hinter dem Semantic Web ist es, das bestehende World Wide Web um die Dimension der Bedeutung zu erweitern. Denn anders als Menschen kommunizieren Computer mittels formaler Sprachen. Die Grundlage des Semantic Web ist daher ein formalisierter Beschreibungsstandard, der sich an natürlichen Sprachen orientiert – mit dazugehöriger Abfragesprache. Passend zum Geburtsmonat des Web bot Dr. Immanuel Normann vom Service Center Digital Humanities Münster den Mitgliedern des Arbeitskreises Digital Humanities am 1. März eine Einführung in dessen Konzepte und Funktionalitäten. Am Beispiel von Wikidata, einer freien und offenen Wissensdatenbank, führte er anschaulich vor, wie die semantische Suche funktioniert und wo ihre Grenzen liegen. Hier geht es zu seiner Präsentation.

Warum ist das Semantic Web reizvoll?

Abbildung 1: Linked Data Cloud (Quelle: EUCLID)

Der Informationsaustausch zwischen Mensch und Computer beziehungsweise Computer und Computer basiert heutzutage noch überwiegend auf syntaktischen Standards. Nutzen wir eine Suchmaschine oder beispielsweise einen digitalen Bibliothekskatalog, um bestimmte Informationen zu recherchieren, dann geschieht das überwiegend durch den Abgleich von Schlagworten. Viele Suchverfahren können hierbei nicht die kontextgebundene Bedeutung der Suchparameter und Ergebnisse erfassen. Daher müssen Trefferlisten oftmals noch vom informationellen Rauschen befreit oder die Recherche näher eingegrenzt werden.

Das semantische Suchverfahren bietet demgegenüber den Vorteil, dass durch eindeutig formulierte Fragestellungen das erwartete Ergebnis spezifiziert werden kann. Zudem wird über die nähere Beschreibung der Daten Kontextwissen abrufbar. So können komplexe Suchanfragen gestellt werden, für deren Beantwortung bisher Expert*innen mit Spezialwissen erforderlich gewesen wären. Beispielsweise könnte man die Frage formulieren, in welchen literarischen Werken Figuren auftauchen, die so auch in der „Göttlichen Komödie“ von Dante Alighieri zu finden sind – eine Frage, die eine Google-Suche nicht ohne Weiteres zu beantworten vermag.

Wissensmodellierung – Maschinen lernen Verstehen

Abbildung 2: Mit RDF-Graphen Beziehungen zwischen Entitäten repräsentieren (Quelle: eigene Grafik von Dr. Immanuel Normann)

Damit solche Fragestellungen möglich sind, muss Wissen, wie zum Beispiel über die „Göttliche Komödie“, maschinenverständlich beschrieben werden. Die einfachste Form hierfür ist der Aussagesatz, der aus einem Subjekt, einem Prädikat und einem Objekt besteht. Das sieht stark vereinfacht etwa so aus: „Dante Alighieri – ist Autor von – Göttliche Komödie.“ Diese Struktur wird im Datenmodell des Resource Description Frameworks (RDF) durch sogenannte Tripel repräsentiert. Sie bestehen aus zwei Knoten (Subjekt und Objekt) und einer Kante (Prädikat), die die Art der Beziehung zwischen den Knoten spezifiziert. Damit ist aber zunächst nur eine Syntax vorgegeben.

Die Interpretierbarkeit von RDF-Aussagen wird mit Ontologien beziehungsweise Schemasprachen gewährleistet.[1] Sie geben Definitionen und Regeln für die möglichen Beschreibungsgegenstände, ihre Eigenschaften und Relationen vor. So können die einzelnen Ressourcen Klassen zugeordnet, hierarchisiert und damit in einen größeren Bedeutungszusammenhang eingeordnet werden. Auf diese Weise kann maschinell verarbeitet werden, dass „Dante Alighieri“ nicht bloß eine Zeichenfolge, sondern eine Instanz der Klasse „Person“ ist und zugleich als Autor in Beziehung zu verschiedenen literarischen Werken steht, die ihrerseits wieder mit anderen Informationen verknüpft werden.

Über dieses semantische Netz lässt sich das implizite Wissen, das Maschinen zuvor verborgen blieb, abfragen und verarbeiten. Entscheidend hierfür ist, dass die einzelnen Bestandteile der Tripel durch einzigartige Bezeichner eindeutig gekennzeichnet werden, wie man sie zum Beispiel in Form von Normdaten findet. Auf diese Weise können Redundanzen vermieden, Mehrdeutigkeiten aufgelöst oder sprachliche Barrieren aufgehoben werden. Zudem erleichtert ihre Verwendung den Zusammenschluss unterschiedlicher Wissensspeicher, wodurch auf lange Sicht ein umfassendes, abfragbares Datennetz geschaffen werden kann.

Fragenstellen für Anfänger*innen am Beispiel von Wikidata

Allerdings erhält man auf seine Fragen nur Antworten, wenn man sie den Regeln der verwendeten Ontologie entsprechend formuliert. Wie das konkret funktioniert, zeigte Herr Dr. Normann am Beispiel der freien und offenen Wissensdatenbank Wikidata.[2] Sie fungiert in erster Linie als zentraler Speicher zur Verwaltung strukturierter Daten für Wikimedia-Projekte wie Wikipedia, kann und soll aber gemäß der CreativeCommons-Lizenz auch als Aggregator für externe Anwendungen genutzt werden.[3] Mit über 56 Millionen Datenobjekten – Tendenz steigend – werden aufbereitete Ressourcen zur Wissensrepräsentation zur Verfügung gestellt, die auch für die Geisteswissenschaften interessant sein können.

Abbildung 3: Einfache Beispielabfrage mit dem Wikidata Query Service (Quelle: Screenshot von https://query.wikidata.org/)

Die einzelnen Datenobjekte sind über unikale Identifikatoren referenzierbar, vergleichbar mit einer GND-Nummer. Damit können differenzierte Aussagen über Konzepte, Gegenstände oder beispielsweise Personen modelliert werden.

Die Abfragesprache SPARQL (SPARQL Protocol And RDF Query Language) macht die in der Wissensdatenbank gespeicherten Aussagen recherchierbar.[4] Die jeweilige Fragestellung wird dabei als Muster (pattern) im Tripel-Format formuliert. In der Datenbank wird dann nach Übereinstimmungen (matches) mit genau diesem Muster gesucht. Alles, was dem nicht entspricht, wird auch nicht ausgegeben.

Für schlichte Fragestellungen bietet Wikidata mit dem Query Helper ein einsteigerfreundliches Werkzeug, für das keine genauen Kenntnisse der Abfragesprache benötigt werden. In einer Art Baukastentechnik werden die Fragen zusammengeklickt. Doch können damit leider nicht die Potentiale von SPARQL-Abfragen ausgeschöpft werden. Für experimentierfreudigere Anwender*innen ist der Wikidata Query Service besser geeignet. Die Benutzeroberfläche erleichtert das Auffinden der Identifikatoren für Objekte und ihre möglichen Eigenschaften. Weil die Vorschläge dabei von der voreingestellten Sprache abhängen, ist es dennoch unerlässlich, sich intensiv mit dem Vokabular auseinanderzusetzen.

Abbildung 4: Die angebotenen Visualisierungen der Abfrageergebnisse liefern erste Einsichten (Quelle: Screenshot von https://query.wikidata.org/)

Generell hängt es von den definierten Aussagen ab, ob und wie sinnvoll und nachhaltig Fragen beantwortet werden können. In Anlehnung an die eingangs gestellte Frage könnten wir nach Figuren aus der „Göttlichen Komödie“ suchen und visualisieren, in welchen anderen Werktypen sie am häufigsten rezipiert werden (Abb. 3). Je nach Themengebiet ist das Ergebnis unterschiedlich zuverlässig und vollständig. Hier fällt etwa auf, dass für einen Werktyp kein Label, also natürlichsprachliches Etikett, vergeben wurde (Abb. 4). Beim näheren Explorieren des Abfrageergebnisses fällt auch eine uneinheitliche Klassifizierung beispielsweise der literarischen Werke auf.

Daten müssen sorgfältig gepflegt werden

Dass jeder in Wikidata ein Datenobjekt erstellen, beschreiben und klassifizieren kann, hat folglich nicht nur Vorteile. Aus geisteswissenschaftlicher Perspektive schwankt die Datenqualität und Informationsdichte je nach Themengebiet zum Teil beträchtlich. Angesichts der täglich wachsenden Zahl neuer Datenobjekte ist es daher schwer zu überprüfen, wie verlässlich und vollständig die Ergebnisausgabe ist.

Die Vorbehalte gegenüber der Datenqualität können indes minimiert werden, wenn die Forschung sich bereits strukturierter und normierter Daten bedient und, wo sie fehlen, selbst nach den fachspezifischen Standards aufbereitet und zur Verfügung stellt. Positiv ist etwa, dass Wikidata die Möglichkeit bietet und fördert, zu jedem Objekt Referenzen anzugeben. Hier können Geisteswissenschaftler*innen eine Vorbildfunktion einnehmen und die Relevanz der Quellenangaben für die Qualität der Datengrundlage betonen.

Am Schluss bleibt die Erkenntnis: Semantic Web ist kein einfaches Thema, doch die Möglichkeit, aus der kaum zu überblickenden Informationsmenge im Internet Sinn zu generieren, ebnet für die Vermittlung von Wissen neue Wege.

Veranstaltungshinweis: Semantic Web in der Lehre

Wer mehr über das Semantic Web lernen möchte, ist herzlich eingeladen im Sommersemester 2019 die nachfolgende Kombination aus Seminar und Übung am Lehrstuhl für „Digital Humanities in den Geschichts- und Kulturwissenschaften“ am Historischen Seminar zu besuchen:

Dozent: Prof. Dr. Torsten Hiltmann
Seminar: Knowledge Engineering mit Semantic Web Technologien zur Organisation, Analyse und Produktion geisteswissenschaftlichen Wissens — Methoden und Techniken (Digital Humanities) – (mehr Informationen)
Termin: Fr. 10–12 Uhr, F 040

Dozent: Prof. Dr. Torsten Hiltmann
Übung: Knowledge Engineering mit Semantic Web Technologien zur Organisation, Analyse und Produktion geisteswissenschaftlichen Wissens — Praxisübung (Digital Humanities) – (mehr Informationen)
Termin: Fr. 12–14 Uhr, F 040


Save the date!

Die nächste Sitzung des Arbeitskreises Digital Humanities findet am Donnerstag, dem 18. April 2019, von 10-12 Uhr statt.

Wo? Raum 613, Service Center Digital Humanities/ZB Sozialwissenschaften, Scharnhorststraße 103/109

Inhalt: Dominique Stutzmann (IRHT Paris) wird mit uns über das Projekt Himanis und die Möglichkeiten der automatisierten Erschließung handschriftlicher Quellenkorpora sprechen.


Anmerkungen:[1] Standardisierte und empfohlene Beispiele hierfür sind RDF-Schema und OWL.
[2] Eine andere Initiative wäre DBPedia, die von Entwicklern der Universität Leipzig, Universität Mannheim, des Hasso-Plattner-Instituts und OpenLink Software betrieben wird. Es werden unter anderem die in der Wikipedia bereitgestellten strukturierten Daten in semantisch verarbeitbare Daten übertragen und zur freien Nutzung über offene Schnittstellen angeboten.
[3] Eine kurze Vorstellung der Idee und des Konzepts hinter der Wissensdatenbank findet sich unter der Wikidata:Introduction-Seite.
[4] Die Help:Contents-Seite ist ein guter Einstieg, aber Wikidata bietet auch ein einsteigerfreundliches Tutorial für SPARQL-Abfragen, das hier eingesehen werden kann.

Schreibe einen Kommentar