Studie zum digitalen Universum mit Big Data
Datum: 3. Januar 2013
Autor: Erwin König
Kategorien: Kurz notiert

Das auf Speichersysteme spezialisierte US-Unternehmen EMC hat eine Studie mit Zahlen zur Nutzung von digitalen Daten veröffentlicht. So wird erwartet, dass bis zum Jahr 2020 das weltweite Datenvolumen auf 40 Zetabytes ansteigen wird. Das bedeutet, dass sich ab heute das Datenvolumen bis 2020 alle zwei Jahre verdoppeln wird. Denjenigen Unternehmen,  die es dank Big Data oder anderen Analyseverfahren schaffen,  diese gigantischen Datenmengen zu nutzen, bietet sich eine hervorragende Chance, ihre Wettbewerbsfähigkeit entscheidend zu verbessern. So zumindest versprechen es in diesem Bereich tätige Unternehmen, wie  auch EMC eines ist. Ob dies wirklich in Zukunft der Fall sein wird,  oder ob die Kreativität und Vorstellungskraft einzelner Mitarbeiter vielleicht  immer noch wichtiger ist als die reine Datenanalyse, wird abzuwarten sein. Grundsätzlich zeigt der vorliegende Bericht aber, dass es mit der bisherigen Analysetätigkeit der Unternehmen noch nicht weit her ist. Bei dem Lesen dieser Fakten fragt man sich überhaupt, ob sich in den letzten Jahren der Anteil an tatsächlich automatisch ausgewerteten Daten am gesamten Datenaufkommen erhöht hat. Oder wachsen uns die digitalen Daten trotz neuer Analyse-Technologien so langsam über den Kopf?

Hier zusammengefasst einige Fakten und Aussagen aus der EMC-Studie:

  • Es wird geschätzt, dass aktuell lediglich ein verschwindend geringer Teil der auf der Welt vorhandenen Datenmenge analytisch ausgewertet wird, nämlich gerade 0,5%.
  • Gründe für das weiter stark ansteigende Datenaufkommen sind die größere Verbreitung von PCs und Smartphones auf der gesamten Welt, die verbesserten Internetzugangsmöglichkeiten, sowie der vermehrte Einsatz von Geräten wie Überwachungskameras und intelligente Stromzähler (Smart Meters).
  • In den vergangenen zwei Jahren hat sich das globale Datenvolumen allein auf nun 2,8 Zetabytes (ZB) verdoppelt. Wie gesagt wird sich dieses Wachstumstempo  halten und sollte im Jahr 2020 bereits 40 ZB erreichen. Dies übersteigt damit frühere Prognosen schon um 14%. Um sich 40 ZB besser vorzustellen: Dies entspricht der 57fachen Menge aller auf der Erde an Stränden vorhandenen Sandkörner. Pro Kopf bedeutet dies eine Menge von 5.247 GB für jeden Menschen auf der Welt.
  • 2012 könnten 23% (entspricht 643 Exabytes) aller vorhandenen Daten durch Big Data nutzbar gemacht werden, wenn sie nur gekennzeichnet und ausgewertet würden.
  • Laut EMC wächst die Menge der durch Big Data verwertbaren Daten mit der gleichzeitigen allgemeinen Datenzunahme. Für 2020 wird erwartet, dass mit Big Data 33% (entspricht 13.000 + Exabytes) aller digitalen Daten nutzbar wären, wenn sie gekennzeichnet und analysiert wären.
  • Aber nicht alle Daten sind auswertungswürdig. Zu den für Big Data besonders geeigneten Daten zählen Überwachsungsdaten, Daten von medizinischen Geräten, Daten aus dem Bereich Unterhaltung und soziale Medien sowie die von Verbrauchern veröffentlichten Fotos.
  • Ein Großteil dieses digitalen Universums ist ungeschützt. Laut EMC wächst dieses ungeschützte Datenvolumen schneller als das digitale Universum selbst. Im Jahr 2010 waren weniger als ein Drittel aller Daten ungesichert. Im Jahr 2020 sollen mehr als 40% aller Daten ungeschützt sein.
  • 2012 haben ungefähr 35% aller Daten einen speziellen Schutz benötigt, allerdings wurde nur ein Fünftel (20%) dieser schützenwerten Daten effektiv gesichert.
  • Weiterhin prognostiziert EMC, dass 2020 13% aller Daten in der Cloud gespeichert werden. Weitere 24% aller digitalen Daten werden über die Cloud bearbeitet und übermittelt, aber nicht gespeichert. 63% der Daten werden auch 2020 nicht in der Cloud gespeichert sein.
  • 2020 stammen die in der Cloud gespeicherten Daten fast zur Hälfte (46,7%) aus dem Entertainment-Bereich. Weitere wichtige Informationsarten sind Überwachungsdaten (35,1%), von Computern und anderen Endgeräten wie Telefonen etc. produzierte Daten (9,7%) sowie Daten/Informationen aus dem medizinischen Sektor (8,5%).
  • Wer immer noch daran glaubt, dass das Web 2.0 und soziale Medien nur ein vorübergehender Medienhype seien, und man sich mit diesem Thema nicht beschäftigen müsste, den lässt vielleicht die Prognose von EMC aufhorchen, die besagt, dass 2012 68% aller Informationen von den Konsumenten / Usern erstellt und genutzt werden.
  • Und auch das Internet der Dinge wird uns in Zukunft noch sehr viel stärker beschäftigen. 2020 werden schätzungsweise 7,6 Mrd. Menschen das Internet benutzen. 2020 werden aber bereits 200 Mrd. Dinge in Form von Computern, Telefonen, Fahrzeugen, Maschinen, Spielzeugen und intelligenten Geräten zur digitalen Kommunikation fähig sein.

Ob die hier publizierten Daten genauso stimmen und eintreffen, dürfte schwer zu beweisen sein. Grundsätzlich spielt es auch keine Rolle, ob wir im Jahr 2020 wirklich 40 ZB erreichen oder "nur" 35 ZB oder vielleicht auch viel mehr. Entscheidend ist, dass das Datenaufkommen weiter sehr schnell ansteigen wird. Auch das Problem der ungeschützten Daten existiert, und ist keine reine Marketingerfindung von EMC und anderen Speicherunternehmen. Die Frage für Informationsspezialisten lautet dabei, ob sie, als die Verwalter und Vermittler von einem relativ kleinen, aber sehr wichtigen Teil dieses digitalen Universums, weiter eine Bedeutung haben werden? Reicht es aus, sich weiterhin nur auf diesen qualitativ hochwertigen Bereich zu konzentrieren, oder muss man fürchten, dass einem in Zukunft auch in diesem Bereich die Arbeit durch Soft- und Hardwarelösungen abgenommen werden? Ein mögliches neues Arbeitsfeld ist sicher die Generierung von Metadaten, ohne die Big Data ins Leere läuft. Der EMC-Bericht zeigt eindeutig, dass es genau an der Kennzeichnung dieser großen Datenbestände mangelt. Die Qualität der Daten und Informationen ist hier der entscheidende Faktor. Benötigt werden für diese geforderte Qualität in den Unternehmen und Organisationen etwa spezielle "Data Scientists". Diese Rolle könnten Informationsspezialisten ausfüllen, da sie mit ihrem bestehenden Know how über Metadaten eigentlich für diesen Job prädestiniert wären. Oder wie EMC es formuliert: Unerschlossene Informationen können denn auch von niemandem genutzt werden.

Quelle:
EMC (Hrsg.): "New Digital Universe Study Reveals Big Data Gap: Less Than 1% of World’s Data is Analyzed; Less Than 20% is Protected"; Pressemitteilung vom 11. Dezember 2012, online abrufbar unter http://www.emc.com/about/news/press/2012/20121211-01.htm

Weitere ausführliche Ergebnisse unter http://www.emc.com/leadership/digital-universe/iview/index.htm

Schlagworte: 10-2012 | big data | emc

Mehr zum Thema:

Schadensbegrenzung: Bad Science

Die Verbreitung fehlerhafter wissenschaftlicher Arbeiten stellt eine erhebliche Bedrohung für die Glaubwürdigkeit der wissenschaftlichen Literatur dar. Obwohl das Zurückziehen solcher Arbeiten Teil des wissenschaftlichen Prozesses ist, gibt es derzeit keine effektiven...

Digitale Informationskompetenz: Ein Muss im Zeitalter der KI

Im Zeitalter der Künstlichen Intelligenz (KI) hat Desinformation eine neue Dimension erreicht. Angesichts dieser Entwicklung wird es immer dringlicher, dass Schüler und Studierende starke Informationskompetenzen entwickeln, um sich in der digitalen Welt...

Linked Data: OCLC erweitert Dewey-Systematik

OCLC, weltweit führender Anbieter von Bibliothekskatalogisierungs- und Metadatendiensten, verstärkt seine Linked-Data-Strategie durch die Einführung einheitlicher Ressourcenidentifikatoren (URIs) für Dewey-Dezimalklassifikationen. Diese Maßnahme zielt darauf ab, das...