Editorial 02-2025
Datum: 15. März 2025
Autor: Rafael Ball
Kategorien: Editorial

Ohne Struktur keine Intelligenz

Warum Forschungsdaten bessere Erschließung brauchen

Forschungsdaten und Daten über Forschung (also Forschungsmanagementdaten) bedürfen einer besonderen Qualität und Struktur, damit sie von Systemen der Künstlichen Intelligenz (Machine-Learning-Systeme) optimal genutzt werden können.

Es ist ein altes Thema, das die Bibliothekarinnen und Bibliothekare seit Jahrhunderten ins Gespräch bringen: Es geht darum, dass Informationen und Literatur, heute auch Daten und Forschungsdaten nur gefunden werden können, wenn sie mit standardisierten Metadaten erschlossen und nachgewiesen sind. Es ist auch das uralte Anliegen der Dokumentare, die standardisiertes Vokabular zur Beschreibung und Erschließung ihrer Inhalte einfordern. Und dies nicht zu Unrecht: Wenn automatisierte Systeme nur im Wust des Volltextes oder der Datensammlung crawlen, dann gibt es zwar immer noch passable Ergebnisse, aber die Präzision leidet deutlich. Wenn es aber um Wissenschaft geht (und viele andere seriöse Bereiche, in denen relevante Entscheidungen getroffen werden müssen), ist „ungefähr“ nicht gut genug.

Wir haben in dieser Ausgabe der Library Essentials zwei Beiträge analysiert, die genau dieses Thema adressieren. Machine-Learning-Systeme sind nur so schlau wie die Qualität der zugrunde liegenden Erschließungsdaten. Da Machine-Learning-Systeme nichts anderes sind als eine Form der Künstlichen Intelligenz, ist es von Bedeutung, dass die Daten in einer Form vorliegen, die die Systeme sinnvoll erkennen, einsetzen, weiterentwickeln und interpretieren können.

Ein Großteil der Forschungsdaten erfüllt diese Anforderungen nicht. Dies ist nicht nur dann ein Problem, wenn Künstliche Intelligenz diese Daten nutzen will, sondern ein bekanntes Phänomen, lange vor dem Masseneinsatz von KI.

Das eigentliche Problem der aktuellen Situation ist aber die Tatsache, dass Machine-Learning-Systeme die zugrunde liegende Daten nutzen und einsetzen, so wie sie sie finden. KI-Systeme fragen nämlich nicht, sie machen keinen (und wenn, dann nur einen formalen) Plausibilitätscheck und halten auch nicht – wie der menschliche Nutzer – einmal inne und hinterfragen das, was sie nutzen.

Das ist eines der größten Probleme maschineller Intelligenz, so dass ganz offensichtlich doch immer die intellektuelle Kraft, also der Mensch, im Loop bleiben muss.

Aber das generelle Problem der mangelhaften und vernachlässigten Erschließung von Forschungsdaten ist schon seit Anbeginn der Archivierung von Forschungsdaten virulent. Während einerseits Forschungsförderer und Hochschulen die Ablage von Forschungsdaten seit Jahren verlangen, sind immer mehr Datenfriedhöfe entstanden, deren wirkliche Nutzung kaum möglich ist, da sie nicht professionell über Metadaten zugänglich sind. Noch hat die Qualität der Forschungsdatenerschließung lange nicht die Qualitätsstufe bibliothekarischer Katalogisierung erreicht.

Aber vielleicht sollten wir den Forschungsdatenmanagern noch ein wenig Zeit zugestehen: Bibliotheken haben schließlich 2000 Jahre Erfahrung in der professionellen Katalogisierung und Erschließung von Inhalten und damit viele Jahrhunderte Vorsprung.

Herzlich
Ihr Rafael Ball

Über Rafael Ball

Rafael Ball studierte die Fächer Biologie, Slawistik und Philosophie an den Universitäten Mainz, Warschau und Smolensk. 1994 wurde er am Institut für Allgemeine Botanik der Universität Mainz zum Dr. rer. nat. promoviert. Bekannt ist er für seine Ideen zur Bibliothek der Zukunft, zur Wissenschaftskommunikation und zur heutigen Rolle des gedruckten Buches. Er ist außerdem Chefredakteur der Zeitschrift B.I.T.online.