In der breiten Öffentlichkeit hört man oft, dass das Internet nichts vergisst. Dass dies so nicht ganz stimmt, wissen Infoprofis schon seit Jahren. Aus diesem Grund gehört die Erhaltung und Bewahrung von digitalen Quellen zu den wichtigsten Aufgaben nicht weniger Informationseinrichtungen. Allerdings beschäftigen sich deutsche Bibliotheken nur selten mit der Archivierung von Webseiten. Eine neue Studie weist mit eindrücklichen Zahlen nach, wie vergänglich Quellen und Informationen im Internet aber wirklich sind. Im Fokus dieser Untersuchung steht das Vorhandensein bzw. Verschwinden von Links, die in Posts und Tweets auf sozialen Medienplattformen wie Facebook und Twitter enthalten sind. Untersucht wurden konkret zwei Sachverhalte: wie viele der Online-Quellen archiviert wurden und wie viele dieser Daten online im realen Web bereits verloren sind.  

Inzwischen hat Facebook über 1 Mrd. User und es werden täglich mehr. Damit steigen auch die dort vorhandenen Inhalte und Informationen immer weiter an. So waren am 10. September 2012 allein auf Facebook 219 Milliarden Fotos online. Über den Kurznachrichtendienst Twitter werden gegenwärtig allein über 140 Millionen Tweets (Stand: 2011) täglich versendet. Damit produzieren alleine diese zwei sozialen Plattformen tagtäglich eine immense Menge an neuen Informationen.

Die bisherigen Untersuchungen zu verschwundenen Internetinhalten sind sehr dünn gesät im Gegensatz zu Studien, die sich mit dem Nutzungsverhalten im Internet beschäftigen. Hier eine kurze Zusammenfassung mit den wichtigsten Ergebnissen aus anderen Arbeiten:

  • Nelson und Allen (2002) analysierten die Beständigkeit von Objekten in digitalen Bibliotheken und stellten fest, dass nach einem Jahr 3% der in der ursprünglichen Ausgangsstichprobe enthaltenen Objekte nicht mehr verfügbar waren.
  • In einer Studie von Sanderson et. al. (2011) wurden die in Arbeitspapieren referenzierten Internetquellen auf ihre Beständigkeit untersucht. Hierbei waren 28% der ursprünglichen Webressourcen nicht mehr auffindbar.
  • Ainsworth et. al. (2011) nahmen sich der Frage an, wie viel des Webs inzwischen archiviert worden ist. Sie fanden eine Bandbreite von 16% bis 79%, wobei dieser Wert sehr stark abhängig von der jeweils gewählten Start-URI ist.

Der Untersuchungsaufbau beinhaltet die Sammlung von Daten zu sechs publizitätsträchtigen Ereignissen aus dem Zeitraum zwischen Juni 2009 und März 2012. Es sind dies im Einzelnen:

  • Der Ausbruch des H1N1-Virus (Schweinegrippe),
  • der Tod von Michael Jackson,
  • die Wahl in Iran sowie die damit einhergehenden Proteste,
  • die Verleihung des Nobelpreises an Barack Obama…
mehr lesen