Das löchrige Gedächtnis des Internets
Datum: 30. Oktober 2012
Autor: Erwin König
Kategorien: Studien

check($_SERVER['REMOTE_ADDR'])){
?>
In der breiten Öffentlichkeit hört man oft, dass das Internet nichts vergisst. Dass dies so nicht ganz stimmt, wissen Infoprofis schon seit Jahren. Aus diesem Grund gehört die Erhaltung und Bewahrung von digitalen Quellen zu den wichtigsten Aufgaben nicht weniger Informationseinrichtungen. Allerdings beschäftigen sich deutsche Bibliotheken nur selten mit der Archivierung von Webseiten. Eine neue Studie weist mit eindrücklichen Zahlen nach, wie vergänglich Quellen und Informationen im Internet aber wirklich sind. Im Fokus dieser Untersuchung steht das Vorhandensein bzw. Verschwinden von Links, die in Posts und Tweets auf sozialen Medienplattformen wie Facebook und Twitter enthalten sind. Untersucht wurden konkret zwei Sachverhalte: wie viele der Online-Quellen archiviert wurden und wie viele dieser Daten online im realen Web bereits verloren sind.  

Inzwischen hat Facebook über 1 Mrd. User und es werden täglich mehr. Damit steigen auch die dort vorhandenen Inhalte und Informationen immer weiter an. So waren am 10. September 2012 allein auf Facebook 219 Milliarden Fotos online. Über den Kurznachrichtendienst Twitter werden gegenwärtig allein über 140 Millionen Tweets (Stand: 2011) täglich versendet. Damit produzieren alleine diese zwei sozialen Plattformen tagtäglich eine immense Menge an neuen Informationen.

Die bisherigen Untersuchungen zu verschwundenen Internetinhalten sind sehr dünn gesät im Gegensatz zu Studien, die sich mit dem Nutzungsverhalten im Internet beschäftigen. Hier eine kurze Zusammenfassung mit den wichtigsten Ergebnissen aus anderen Arbeiten:

  • Nelson und Allen (2002) analysierten die Beständigkeit von Objekten in digitalen Bibliotheken und stellten fest, dass nach einem Jahr 3% der in der ursprünglichen Ausgangsstichprobe enthaltenen Objekte nicht mehr verfügbar waren.
  • In einer Studie von Sanderson et. al. (2011) wurden die in Arbeitspapieren referenzierten Internetquellen auf ihre Beständigkeit untersucht. Hierbei waren 28% der ursprünglichen Webressourcen nicht mehr auffindbar.
  • Ainsworth et. al. (2011) nahmen sich der Frage an, wie viel des Webs inzwischen archiviert worden ist. Sie fanden eine Bandbreite von 16% bis 79%, wobei dieser Wert sehr stark abhängig von der jeweils gewählten Start-URI ist.

Der Untersuchungsaufbau beinhaltet die Sammlung von Daten zu sechs publizitätsträchtigen Ereignissen aus dem Zeitraum zwischen Juni 2009 und März 2012. Es sind dies im Einzelnen:

  • Der Ausbruch des H1N1-Virus (Schweinegrippe),
  • der Tod von Michael Jackson,
  • die Wahl in Iran sowie die damit einhergehenden Proteste,
  • die Verleihung des Nobelpreises an Barack Obama,
  • der arabische Frühling in Ägypten
  • und der Aufstand in Syrien.

Wie bereits oben bemerkt, werden in dieser Studie aber nicht die Anzahl an verschwundenen Tweets, sondern die in diesen Tweets genannten Quellen bzw. Internetlinks analysiert. Diese enthalten schließlich die eigentlich gesuchten Informationen und Inhalte im Web, wie z.B. zum arabischen Frühling. Insgesamt sind zusammen in allen sechs Datensätzen 11.051 einzigartige URIs enthalten. Diese wurden, aufgeteilt nach dem jeweiligen Ereignis, nach archivierten und verlorenen Internetquellen untersucht. Als Hilfsmittel wurde u.a. der Memento Online-Dienst (http://mementoweb.org/) genutzt, mit dem es möglich ist, die in Web-Archiven gespeicherten Daten zu finden.

Die wichtigsten Resultate dieser Untersuchung sind u.a.:

  • Nach einem Jahr waren ca. 11% der Quellen bereits wieder verschwunden, d.h. sie waren weder Online noch in einem Web-Archiv auffindbar.
  • Nach zweieinhalb Jahren lag der Wert für die verlorenen Internetressourcen bereits bei 27%.
  • Die Wissenschaftler haben berechnet, dass jeden Tag 0,02% aller Internetquellen verschwinden.
  • Die Quoten bei den archivierten Webseiten sind mit 20% nach einem Jahr und mit 41% nach zweieinhalb Jahren für die wissenschaftliche Forschung ebenfalls alles andere als überragend

Für Historiker und andere Wissenschaftler sind die in dieser Studie gefundenen Resultate ein Warnsignal für ihre zukünftige Arbeit. Es besteht die berechtigte Annahme, dass in ein paar Jahren zu manchen Ereignissen kaum mehr Original-Quellen vorhanden sind. Das Internet ist, im Gegensatz zu der oft gehörten und weitverbreiteten Behauptung „Das Internet vergisst nichts“, ein sehr flüchtiger Informationskanal. Fast genauso schnell wie Inhalte und Informationen im Internet auftauchen und verbreitet werden, verschwinden diese Quellen auch wieder. So gesehen haben analoge Medien, wie gedruckte Bücher oder Filmrollen, einen großen Vorteil gegenüber diesen digitalen Ressourcen: Sie sind aktuell wesentlich beständiger und langlebiger als ihre digitalen Konkurrenten. Soll man deswegen wieder zurück in die analoge Welt? Das macht wohl nur in sehr speziellen Fällen Sinn. Wichtiger wäre es, wenn die für die Archivierung von digitalen Inhalten prädestinierten Spezialisten, d.h. Archivare, Bibliothekare und Dokumentare, sich verstärkt dieser Web-Archivierungsaufgabe widmen würden. Staatliche Fördergelder oder ein offizieller Sammelauftrag würde dieses Aufgabengebiet sicher voranbringen, aber grundsätzlich sollte es zumindest für spezifische Themen auch ohne staatlichen „Segen“ möglich sein, sich diesem Aufgabengebiet zu widmen. Zumindest bietet die Web-Archivierung für Informationsspezialisten ein chancenreiches Feld wie kaum ein zweites aktuelles Thema. Zudem wäre dies auch ein Bereich, wo man Google mehr als einen Schritt voraus wäre.

Quelle:  SalahEldeen,Hany M.; Nelson,Michael L.: „Losing My Revolution. How Many Resources Shared on Social Media Have Been Lost?“; September 2012, online verfügbar unter der Internetadresse http://arxiv.org/pdf/1209.3026v1.pdf

Um den Artikel in voller Länge lesen zu können registrieren Sie sich doch einfach bei uns | oder melden Sie sich an (Login)

Schlagworte: 08-2012 | Internet | quellen

Mehr zum Thema:

Gen Z und Millennials lieben digitale Medien UND Bibliotheken

Die Generation Z und Millennials, die für ihre tiefgreifende Verbindung zur digitalen Welt bekannt sind, zeigen überraschenderweise auch eine starke Affinität zu physischen Bibliotheken, wie neue Studien der American Library Association zeigen – die Ergebnisse sind...

Auskunfts- und Informationsdienste in Bibliotheken

Die Studie Reference service in libraries like mine: A comparison of current reference service in libraries serving medium, small, and very small institutions von Julie E. Sweeney (Ryan Library, Point Loma Nazarene University, USA)1 zielt darauf ab, die Lücke in der...

Die transparente Dokumentation von Cultural Heritage Datasets

Angesichts der Probleme in Bezug auf Datenqualität und unzureichende Dokumentation von Datensätzen hat die Machine Learning Community begonnen, standardisierte Verfahren zur Erstellung von Datenblättern für maschinelles Lernen zu entwickeln. Das Hauptziel besteht...