Die transparente Dokumentation von Cultural Heritage Datasets
Datum: 30. Januar 2024
Autor: Erwin König
Kategorien: Studien

Angesichts der Probleme in Bezug auf Datenqualität und unzureichende Dokumentation von Datensätzen hat die Machine Learning Community begonnen, standardisierte Verfahren zur Erstellung von Datenblättern für maschinelles Lernen zu entwickeln. Das Hauptziel besteht darin, Kontextinformationen und Angaben zur Herkunft, Zweck, Zusammensetzung, Datensammlung, empfohlenen Anwendungsfällen sowie möglichen gesellschaftlichen Vorurteilen in Trainingsdatensätzen bereitzustellen. Dieser Ansatz ähnelt den etablierten Praktiken und Verfahren in GLAM-Institutionen (Galleries, Libraries, Archives, Museums), wie beispielsweise der Erstellung von Sammlungsbeschreibungen. Allerdings weisen digitale Cultural Heritage Datasets besondere Merkmale auf: Sie entstehen oft durch eine komplexe Auswahl, dienen möglicherweise anderen Zwecken als der reinen statistischen Analyse und sind heterogen und veränderlich.

...

Um den Artikel in voller Länge lesen zu können, benötigen Sie ein Abo. Jetzt Abo abschließen oder mit bestehendem Konto anmelden!

Mehr zum Thema: