Nicht einmal ein Jahr hat es gedauert, bis Ende 1996 der Prozess abgeschlossen war, in dessen Verlauf sich die im Bundestag vertretenen Parteien mit eigenen Web-Seiten im Internet präsentierten. In immer stärkerem Maße räumen die Parteien seit dieser Zeit ihrer Internetpräsenz eine zentrale Stellung sowohl bei der Organisation ihrer Kommunikation mit Mitgliedern und potentiellen Wählern als auch bei der Darstellung ihrer Inhalte und Personen ein. Planmäßig werden die neuen Möglichkeiten der Informationstechnologie von den politischen Parteien in Überlegungen zur Struktur ihrer Organisationen und zur Konzeption der politischen Arbeit einbezogen. Mit ausdrücklichem Bezug auf das Internet stellt der damalige SPD-Generalsekretär, Franz Müntefering, in seinem Thesen-Papier "Demokratie braucht Partei" fest:
"Die Verbreitung des Internet als Massenmedium verändert jetzt in nur wenigen Jahren die Bedingungen der politischen Kommunikation radikal. ... Wir werden das Internet als den zentralen Weg der innerparteilichen Kommunikation aufbauen. [1]"
Ähnliche Aussagen finden sich auch bei anderen Parteien [2].
Im Zuge der so forcierten Entwicklung werden konventionelle Formen der Darstellung und Kommunikation immer stärker durch Internetangebote ergänzt oder gar ersetzt. Und zwar auf allen Ebenen. Das betrifft den Bürgerbrief von Abgeordneten ebenso wie das Organigramm der Geschäftsstelle einer Landtagsfraktion und reicht bis hin zu so einem zentralen Dokument der programmatischen Diskussion wie dem so genannten 'Schröder-Blair-Papier', das eben nie ein Papier war, sondern authentisch nur im Internet veröffentlicht wurde.
Nun steht aber im Ernst nicht mehr die Frage nach der Archivwürdigkeit der Quellengattung Internet im Vordergrund, sondern die Frage nach der Archivfähigkeit, d.h. die Frage, ob es gelingt, für die mit der Archivierung des Internets verbundenen Probleme der Erfassung, der Erschließung, der Sicherung und der Präsentation Lösungen zu erarbeiten, die mit vertretbarem technischen und zeitlichen Aufwand zu betreiben sind. Erst die Lösung dieser Probleme unter den Aspekten der Authentizität, der Recherchierfähigkeit, Langfristigkeit und Benutzbarkeit eröffnen die Möglichkeit zum Aufbau eines Internet-Archivs. Aufbau und Struktur des Internet-Archivs werden dabei wesentlich von zwei Faktoren bestimmt: Inhaltlich durch die Aufgabenstellung, die möglichst präzise gefasst sein sollte, und technisch durch die Präsentationsform, in der das Archiv den Benutzern zur Verfügung gestellt werden soll.
Zur Aufgabenstellung
Archivierung der Internetpräsenz der SPD kann nur heißen: Archivierung der Webseiten der satzungsgemäßen Gliederungen, Gremien und Initiativen der SPD. Entsprechendes gilt für die Bundes- und Landtagsfraktionen. Um in Fällen, in denen man über diesen Kernbereich hinausgeht, der Willkür nicht Tür und Tor zu öffnen, sollten solche Erweiterungen nur unter strengen Auflagen zugelassen werden, etwa der nur informelle Zusammenschlüsse satzungsmäßiger Gliederungen 'ersten Grades' mit aufzunehmen, wie z.B. die ruhrost-spd, ein Zusammenschluss von SPD-Unterbezirken. Willkürlich bleibt ein solches Verfahren insofern, als man nicht gezielt nach solchen Zusammenschlüssen suchen und deshalb auch keine Gewähr dafür übernehmen kann, sie wirklich alle zu erfassen. Die Einschränkung 'ersten Grades' soll bewirken, dass sich ein Ehrgeiz, nun auch das 100. Diskussionsforum und den 1000. Chatroom mit zu archivieren, gar nicht erst entwickelt.
Eine Besonderheit stellen in diesem Zusammenhang die Landesgruppen der SPD-Bundestagsfraktion dar. Sie sind in der Satzung der Fraktion nicht vorgesehen. Wohl deshalb auch laufen ihre Seiten nicht auf den Fraktionsservern, sondern auf den Servern des jeweiligen Landesverbandes. Logisch gesehen gehören diese Seiten zur Bundestagsfraktion, physisch sind sie Bestandteile der Präsenz des jeweiligen Landesverbandes. Weil die Archivierung in Intervallen erfolgt, werden die Seiten sowohl in die Spiegelung der Fraktionsseiten als auch in die Spiegelung der Seiten des entsprechenden Landesverbandes aufgenommen. Einfach der dichteren Überlieferung wegen. Darüber aber, dass so entschieden wurde, muss der Nutzer informiert werden. Und das kann man angemessen nur im Rahmen einer Verzeichnung, also als 'enthält'- bzw. 'darin'-Vermerk. Aus diesem und einigen anderen Gründen scheint ein Zugang zu den archivierten Internetseiten auch über eine Datenbank unverzichtbar.
Die Idee einer kontinuierlichen Erfassung, scheint - im Moment jedenfalls - technisch nicht realisierbar.
Zu den einzelnen Schritten der Archivierung
Erfassung
Die Erfassung, von uns Spiegelung genannt, entspricht der Akquisition-
Kassation / Erfassung im konventionellen Bereich. Manche sprechen in
diesem Zusammenhang auch von Harvest, Download oder Retrieval. Ganz gleich welchen Ausdruck man wählt, gemeint sein muss immer: die physische Umsetzung einer Internetpräsenz in eine Datenstruktur auf einem Datenträger, und zwar in einer browserfähigen Form, d.h. mit dem Ziel einer zukünftigen Benutzung, als wäre man heute im Internet. Nun darf der Begriff 'Spiegelung' nicht den Eindruck erwecken, als brauche man bei dieser Art der Erfassung lediglich eine feste Größe, etwa einen Server, den man dann abspiegelt. Es gibt weder im physischen noch im logischen Sinn solche vorgegebenen Einheiten, auf die man sich positiv beziehen könnte. Wohl aber muss das Resultat der Spiegelung eine solche Einheit darstellen.
Die Aufgabe, die mit Hilfe eines OffLine-Browsers, der Spiegelungs-Software, gelöst werden muss, besteht darin, aus dem gewählten Internet-Ausschnitt eine in sich vollständige, funktionsfähige und adäquate Einheit auf einem Datenträger zu machen. Dazu ist es notwendig, dass alle absoluten Links in relative Links umgeschrieben werden und dass z.B. alle so genannten 'eingebetteten Dateien', die aus einem ganz anderen Bereich als dem des gewählten Ausschnitts stammen, mitgespeichert werden. Vor allem das Umschreiben der Links ist gemeint, wenn vorhin von der 'Umsetzung einer Internetpräsenz in eine Datenstruktur' die Rede war.
Das Einrichten der einzelnen Projekte ist der bisher am wenigsten automatisierte Bereich innerhalb des gesamten Archivierungsprozesses. Langwierige, mühevolle und akribische Handarbeit kennzeichnet diesen Teil der Erfassung. Vor allem das Sammeln der einschlägigen URLs über die Verlinkungen der einzelnen Seiten muss dringend durch zumindest teilautomatisierte Verfahren erleichtert werden. Dazu müssten Analysemethoden entwickelt werden, die die Links einer Seite in einheitlicher Form, nämlich als URLs, darstellen können, um sie dann in die jeweiligen Projekte zu übernehmen.
Über den OffLine-Browser werden die Grenze, bis zu der die Links erfasst werden sollen, bestimmt und die Art der Umsetzung von der Internet- in die Datenstruktur. Es werden also Eingriffe auch in die Struktur der Seiten notwendig. Die Regeln, nach denen diese Eingriffe erfolgen, werden durch die Einstellungen des OffLine-Browsers festgelegt. Als Ergebnis wird so eine browserfähige Kopie des gewählten Internetausschnitts erzeugt, deren Authentizität sich aus den Regeln herleitet, die bei ihrer Erstellung nachprüfbar beachtet wurden.
Grenzen der Erfassung gibt es natürlich auch. Datenbanken etwa sind nicht zu spiegeln, Streaming Files und Session IDs können problematisch sein. Alles andere aber ist zu spiegeln: dynamisch generierte Seiten, Java Scripte und auch Flash-Animationen. Aber das alles geschieht in einem ständigen Wettlauf zwischen den Entwicklern von OffLine-Browsern und den Webdesignern. Eine fertige Lösung für die mit der Spiegelung verbundenen Probleme gibt es also nicht - und kann es auch nicht geben.
Um so wichtiger ist es, nicht nur die Leistungsfähigkeit der entsprechenden Software zu prüfen, sondern auch die Innovationsfreudigkeit (Version History) und Innovationsfähigkeit der jeweiligen Herstellerfirma. Und die Bereitschaft eines Herstellers auch archivarische Belange zu berücksichtigen, lässt sich ja durchaus testen. Sowohl von der Leistungsfähigkeit als auch von der gewährten Unterstützung her hat sich unter den OffLine-Browsern der 'OffLine Explorer' bisher bestens bewährt.
Da wir die Spiegelungen in Intervallen vornehmen, gehen uns natürlich die Dokumente verloren, die innerhalb eines Intervalls ins Netz gestellt und wieder entfernt werden. Daran wäre bei entsprechender Personalausstattung leicht etwas zu ändern. Andererseits führt das Spiegeln in Intervallen natürlich auch zu einer großen Zahl von Doppelüberlieferungen. Bei Spiegelungen in einem Abstand von vier Monaten sind grob geschätzt etwa ein Drittel der erfassten Dokumente redundant. Nur daran sollte man selbst bei optimaler Personalausstattung nichts ändern wollen. Die letzte Spiegelung der Seiten der SPD auf Bundesebene umfasste ca. 2 Gigabyte. Wer sollte denn überprüfen, ob die Dokumente inzwischen nicht verändert oder korrigiert wurden? Wer wollte prüfen, ob nicht mittlerweile neue Links auf diese Dokumente gelegt wurden, die bei einer Entfernung ins Leere liefen? Der berühmt-berüchtigte Satz: "Sammeln ist billiger als Auswählen, Indexieren ist billiger als Verzeichnen und ein Gigabyte Speicherplatz kostet einen Euro."(Brewster Kahle), repräsentiert nun sicher nicht die ganze Weisheit. Aber man sollte von dieser Erkenntnis wirklich nur in begründeten Ausnahmefällen abweichen. Wir tun dies, wie später ausgeführt werden wird, etwa bei der Frage der Verzeichnung.
Präsentation
Zunächst aber muss die Frage der Präsentation geklärt sein, weil alle weiteren Entscheidungen, die beim Aufbau eines Internet-Archivs zu treffen sind, von der gewählten Präsentationsform abhängen.
Die einzig adäquate Form des Zugangs zu einem Internet-Archiv gewährt die Serverpräsentation [3] - und zwar im Intranet des Archivs. Nur diese Form bietet die Gewähr für eine adäquate Wiedergabe; sie integriert problemlos die langen in Dateinamen verwandelten URLs, und der Server kann ohne große Umstände mit einer Datenbank - etwa Faust - vernetzt werden. So bietet sich die Möglichkeit, zwei Zugangswege zum Internet-Archiv zu schaffen. Einen über eine Homepage mit eigener URL, den anderen über Faust. Die Version 5.0 bietet entsprechende Eingabefelder in der Erfassungsmaske mit der Möglichkeit zur Anbindung digitaler Objekte und Internetadressen.
Die Verzeichnungsstandards müssen allerdings noch erfunden werden. Bis dahin sollte jede Form von Minimalismus als erlaubt gelten, zumal - jedenfalls mit Bezug auf die Internetpräsenzen der Parteien - davor gewarnt werden muss, zu glauben, man fände im Quelltext Metadaten, die auch nur im entferntesten irgendwelchen Standards (etwa Dublin Core) genügen würden. Wenn überhaupt etwas im Head des Quelltextes steht, dann ist es dermaßen allgemein und nichtssagend - und zwar bei allen Parteien -, dass es zur Verzeichnung nicht herangezogen werden kann. Nun ist angesichts der gewaltigen Datenmenge ohnehin der Index die gebotene Form der Erschließung - mit allen Vorbehalten natürlich - und die Verzeichnung sollte ihn lediglich ergänzen. So ergibt sich also für die Präsentation Folgendes: Server als Medium, HTML als Format, Browser als Software und einen Benutzerzugang über eine Homepage mit Index und/oder eine Datenbank mit Verzeichnung.
Um nachträgliches, u.U. sehr aufwendiges Kopieren zu vermeiden, sollten die gespiegelten Dateien gleich an ihrem Ort innerhalb der Archivstruktur auf der Festplatte gespeichert werden. Die Benennung der einzelnen Ordner sollte so gewählt werden, dass sie als Bestandteile etwa des Titels in der Datenbank wiedergefunden werden können.
Alle Probleme, die angesprochen wurden - lange Dateinamen, Index, Eingangsseite -, lassen sich auch für CD, DVD oder Worms (magneto-optische Medien) lösen. Sie machen aber einen unvergleichlich höheren Arbeitsaufwand erforderlich und bieten in der Regel schlechtere Resultate.
Langzeitsicherung
Ganz anders sieht das bei der Frage der Langzeitsicherung aus. Hier ist die CD bzw. DVD die geeignete und kostengünstigste Lösung. Wegen der langen Dateinamen werden die gespiegelten Seiten in komprimierter Form (WinZip oder als verschlüsselte Dateien) gesichert. Zusätzlich sichern wir den Festplatteninhalt auf eigenen Bändern. Um auch für wirklich alle Eventualitäten gerüstet zu sein, empfiehlt sich der Einsatz eines Raid-Festplattensatz, der den Inhalt noch einmal 'verdoppelt', so dass auch bei einem Festplattenschaden der Inhalt weiterhin verfügbar wäre.
Aber die eigentliche Langzeitsicherung erfolgt ohne Konversion und ohne Index auf DVD und Bändern. Eine konvertierte Form, etwa in XML, würde eine weitere Langzeitsicherung erforderlich machen, da eine Konversion mit dem Verlust der Funktionalität bezahlt würde. Ob dieser Mehraufwand an Arbeit durch einen Gewinn an Recherchemöglichkeiten aufgewogen würde, lässt sich noch nicht absehen. Lohnend scheint allerdings der Versuch, bestimmte Formate, z.B. jpg für Bilder, sowie bestimmte Textsorten (Pressemitteilungen) zu isolieren und in einem Speicherformat wie XML zu sichern.
Damit würden allerdings zwei Verfahren der Datensicherung erforderlich. Zum einen die Langzeitsicherung des Präsentationsformats HTML, und zum anderen die applikationsfreie Langzeitsicherung der Daten in einem Speicherformat. Gesichert wird natürlich auch die Software, die zur Erfassung, Erschließung und Darstellung benutzt wurde, sowie die zur Darstellung notwendigen Browser und einschlägigen Hilfsprogramme (Real Player, Acrobat etc.).
Erschließung mittels Indexierung
Die Erschließung mittels Indexierung erfolgt durch eine Software, die im Prinzip unbegrenzt viele Indizes erstellen, verwalten und miteinander kombinieren kann. Sie lässt unterschiedliche Gewichtungen bei der Anzeige der Suchergebnisse zu und präsentiert bei der Darstellung der Ergebnisse keine 'toten Seiten', die eine weitere Navigation unmöglich machen würden.
Da die Spiegelungen in diskreten Schritten erfolgen, soll die Kombinierbarkeit der einzelnen Indizes sicherstellen, dass auch eine diachrone bzw. synchrone Suche über inhaltlich bzw. zeitlich zusammengehörende Spiegelungsprojekte ermöglicht wird.
Einen Idealtypus zukünftiger Archivarbeit stellt der Aufbau eines Internetarchivs insofern dar, als alle hier anfallenden Informationen -bearbeitete, verarbeitete und erarbeitete- digital generiert sind. Gerade weil wir uns damit vollständig im Umfeld der Informationstechnologie bewegen, die ihrerseits mit einem auf den Aspekt der Sicherung verkürzten Archivierungsbegriff arbeitet, muss abschließend noch einmal betont werden, dass der Aufbau eines Internet-Archivs neben der Sicherung auch die Erfassung, Erschließung und Präsentation von Webseiten erfordert. Die Datenbestände müssen physisch im Archiv präsent sein, sie müssen recherchierfähig sein, langfristig gesichert und benutzerfreundlich aufbereitet.