Online-Dokumente haben nur eine geringe Haltbarkeit
Datum: 11. Juni 2012
Autor: Erwin König
Kategorien: Studien

check($_SERVER['REMOTE_ADDR'])){ ?>

In einer gemeinsamen Studie haben die Georgetown Law Library und die Chesapeake Digital Preservation Group untersucht, wie lange Online-Dokumente unter ihrer ursprünglichen Internetadresse erreichbar sind. Dies ist bereits der 5. jährliche Bericht des Chesapeakes Projekts zur Linkverrottung im Web.

Das Chesapeake Projekt wurde Ende Februar 2007 von einer Gruppe amerikanischer Rechtsbibliotheken initiiert, um digital erstellte juristische Informationen zu bewahren und zu archivieren. Hintergrund dieses Projekts ist, dass viele wichtige Gesetzestexte, Urteile und Regierungsdokumente nach einer gewissen Zeit zu oft nicht mehr im Web auffindbar waren. Insgesamt wird zu diesem Zweck eine Stichprobe von 579 URLs über einen längeren Zeitraum beobachtet.

Um sowohl den Fortschritt als auch die Relevanz des Projekts zu messen, werden in regelmäßigen Abständen Überprüfungen vorgenommen. Einer der Prüfungsparameter beinhaltet das Messen der Linkverrottung. Dabei gilt natürlich, je größer die Anzahl der verrotteten Links, umso sinnvoller ist es, ein eigenes Webarchivierungs-Projekt zu betreiben. Es gab schon früher einige Studien zu dieser Thematik. Dabei wurde z.B. festgestellt, dass knapp 13% der Zitierungen mit Weblinks in wichtigen wissenschaftlichen Fachzeitschriften bereits 27 Monate nach der Veröffentlichung inaktiv waren. In einer anderen Studie zu publizierten Fußnoten mit URLs waren nach vier Jahren nur mehr 60% der Links erreichbar. Das Problem der Linkverrottung oder der unzuverlässigen URL-Stabilität ist offensichtlich.

Folgende Fragen werden mittels dieser Untersuchung versucht zu beantworten:

  • Wie groß ist der Prozentsatz von verrotteten Links bei den ursprünglich innerhalb des Chesapeake Projekts gesammelten 579 URLs?
  • Wie hat sich der Anteil der verrotteten Links im Lauf der Zeit verändert, basierend auf verschiedenen Stichproben?
  • Welche Top-Level Domains (z.B. .com, .gov, .org oder .us) der Original-URLS sind am stärksten von der Linkverrottung betroffen?
  • Welche Dateiformate (z.B. .pdf, .doc) der im Rahmen des Chesapeake Projekts gesammelten Stichprobe sind am meisten von Linkverrottung betroffen?

Definitionen

  • Für diese Analyse beschreibt der Begriff "URL" einen Uniform Resource Locator oder eine Internetadresse, die auf eine Seite im World Wide Web verweist.
  • Der Begriff "verrotteter Link" beschreibt hier eine URL, die keinen Zugang mehr zu der ursprünglich durch das Chesapeake Projekt gesammelte Webdatei ermöglicht.

 Folgende Ergebnisse haben sich ergeben:

  • Insgesamt sind 218 oder 37,7% der im Jahr 2012 untersuchten Stichprobe von 579 URLs nicht mehr erreichbar gewesen. Somit sind nur mehr 62,2% (361 URLs) nach fünf Jahren noch nutzbar.
  • Die Linkverrottung hat sich über die bisher insgesamt fünf Jahre folgendermaßen entwickelt:

2008: 8,3% (48 nichtfunktionierende Links)

2009: 14,3% (83 URLs)

2010: 27,6% (160 URLs)

2011: 30,4% (176 (URLs)

2012: 37,7% (218 URLs)

  • 2012 haben URLs mit der Domain .org das höchste Wachstum an Linkverrottung aufgewiesen. Mehr als 43% der auf diesen Webseiten sich befindlichen Stichproben-Dokumente sind inzwischen nicht mehr unter ihrer ursprünglichen Webadresse zu finden. Ebenfalls stark von Linkverrottung betroffen sind Regierungs- und Behördenwebsites mit der Domain .gov. Hier sind inzwischen 32% aller untersuchten Webadressen nicht mehr erreichbar. Auch die Stichproben-Inhalte für die einzelnen Bundesstaaten, die man unter den .state.[Bundesstaat-Code].us-URLS findet, weisen mit 17% ebenfalls eine starke Linkverrottung auf.

Diese interessante Langzeitstudie zeigt eindrücklich, dass Inhalte und Informationen im Web schneller verschwinden, oder nicht mehr unter der ursprünglichen Internetadresse erreichbar sind, als dies wünschenswert wäre. Weiterhin wird nachgewiesen, dass die Linkverrottung nicht einfach nach einer bestimmten Zeit von allein aufhört. Sie schreitet unaufhörlich weiter. So sind im Durchschnitt jedes Jahr 43,6 von den beobachteten 578 Links nicht mehr erreichbar gewesen. Bleibt dieses Verrottungstempo bestehen, dürften in 13 bis 14 Jahren keine der ursprünglich untersuchten Links mehr verfügbar sein. Gerade für Branchen wie den Rechtsbereich, wo man auf zuverlässige Quellen angewiesen ist, ist dies ein ernsthaftes Problem. Aber auch allgemein ist praktisch jeder Internetnutzer irgendwann, mehr oder weniger, von diesem Phänomen negativ betroffen. Die Wiederauffindbarkeit von Webinhalten wird somit zu einem Glücksspiel. Suchmaschinen wie Google sind dabei auch keine große Hilfe.

Ist damit die Archivierung von Webinhalten eine wichtige Aufgabe, etwa für wissenschaftliche Bibliotheken? So lange es keine für den Berufsalltag einfach zu benutzende Alternative - archive.org ist dies für solche speziellen Themen mit Sicherheit nicht - ist diese Frage mit einem relativ eindeutigen "Ja" zu beantworten. Wer als Informationsspezialist für Experten tätig ist, egal ob in Unternehmen oder in einem akademischen Umfeld, sollte über die Möglichkeit der Webarchivierung nachdenken. Wie und in welcher Form dies geschieht, entscheiden dann natürlich das Informationsbedürfnis der eigenen User sowie auch die eigenen finanziellen Mittel. Die Archivierung von Webinhalten ist aber alles andere als eine triviale Tätigkeit. Auch rechtliche Aspekte wie Fragen des Urheberrechts müssen hier zuerst sorgfältig erörtert werden.

Quelle: Chesapeake Digital Preservation Group (Hrsg.): "'Link Rot' and Legal Resources on the Web: A 2012 Analysis by the Chesapeake Digital Preservation Group"; online abrufbar unter http://cdm16064.contentdm.oclc.org/cdm/linkrot2102 

In einer gemeinsamen Studie haben die Georgetown Law Library und die Chesapeake Digital Preservation Group untersucht, wie lange Online-Dokumente unter ihrer ursprünglichen Internetadresse erreichbar sind. Dies ist bereits der 5. jährliche Bericht des Chesapeakes Projekts zur Linkverrottung im Web.

Das Chesapeake Projekt wurde Ende Februar 2007 von einer Gruppe amerikanischer Rechtsbibliotheken initiiert, um digital erstellte juristische Informationen zu bewahren und zu archivieren. Hintergrund dieses Projekts ist, dass viele wichtige Gesetzestexte, Urteile und Regierungsdokumente nach einer gewissen Zeit zu oft nicht mehr im Web auffindbar waren. Insgesamt wird zu diesem Zweck eine Stichprobe von 579 URLs über einen längeren Zeitraum beobachtet.

Um sowohl den Fortschritt als auch die Relevanz des Projekts zu messen, werden in regelmäßigen Abständen Überprüfungen vorgenommen. Einer der Prüfungsparameter beinhaltet das Messen der Linkverrottung. Dabei gilt natürlich, je größer die Anzahl der verrotteten Links, umso sinnvoller ist es, ein eigenes Webarchivierungs-Projekt zu betreiben. Es gab schon früher einige Studien zu dieser Thematik. Dabei wurde z.B. festgestellt, dass knapp 13% der Zitierungen mit Weblinks in wichtigen wissenschaftlichen Fachzeitschriften bereits 27 Monate nach der Veröffentlichung inaktiv waren. In einer anderen Studie zu publizierten Fußnoten mit URLs waren nach vier Jahren nur mehr 60% der Links erreichbar. Das Problem der Linkverrottung oder der unzuverlässigen URL-Stabilität ist offensichtlich.

Folgende Fragen werden mittels dieser Untersuchung versucht zu beantworten:

Mehr zum Thema:

Gen Z und Millennials lieben digitale Medien UND Bibliotheken

Die Generation Z und Millennials, die für ihre tiefgreifende Verbindung zur digitalen Welt bekannt sind, zeigen überraschenderweise auch eine starke Affinität zu physischen Bibliotheken, wie neue Studien der American Library Association zeigen – die Ergebnisse sind...

Auskunfts- und Informationsdienste in Bibliotheken

Die Studie Reference service in libraries like mine: A comparison of current reference service in libraries serving medium, small, and very small institutions von Julie E. Sweeney (Ryan Library, Point Loma Nazarene University, USA)1 zielt darauf ab, die Lücke in der...

Die transparente Dokumentation von Cultural Heritage Datasets

Angesichts der Probleme in Bezug auf Datenqualität und unzureichende Dokumentation von Datensätzen hat die Machine Learning Community begonnen, standardisierte Verfahren zur Erstellung von Datenblättern für maschinelles Lernen zu entwickeln. Das Hauptziel besteht...