Die transparente Dokumentation von Cultural Heritage Datasets
Datum: 30. Januar 2024
Autor: Erwin König
Kategorien: Studien

Angesichts der Probleme in Bezug auf Datenqualität und unzureichende Dokumentation von Datensätzen hat die Machine Learning Community begonnen, standardisierte Verfahren zur Erstellung von Datenblättern für maschinelles Lernen zu entwickeln. Das Hauptziel besteht darin, Kontextinformationen und Angaben zur Herkunft, Zweck, Zusammensetzung, Datensammlung, empfohlenen Anwendungsfällen sowie möglichen gesellschaftlichen Vorurteilen in Trainingsdatensätzen bereitzustellen. Dieser Ansatz ähnelt den etablierten Praktiken und Verfahren in GLAM-Institutionen (Galleries, Libraries, Archives, Museums), wie beispielsweise der Erstellung von Sammlungsbeschreibungen. Allerdings weisen digitale Cultural Heritage Datasets besondere Merkmale auf: Sie entstehen oft durch eine komplexe Auswahl, dienen möglicherweise anderen Zwecken als der reinen statistischen Analyse und sind heterogen und veränderlich.

...

Um den Artikel in voller Länge lesen zu können, benötigen Sie ein Abo. Jetzt Abo abschließen oder mit bestehendem Konto anmelden!

Mehr zum Thema:

ChatGPT liefert häufig ungenaue Quellenangaben für Verlagsinhalte

Eine Studie des Tow Center for Digital Journalism an der Columbia University in New York hat untersucht, wie der KI-Chatbot ChatGPT mit Quellenangaben und Referenzierung von Verlagsinhalten umgeht. Dabei wurden zahlreiche Fälle aufgedeckt, in denen ChatGPT die Quelle...

Digitaler Wandel prägt deutsche Medienlandschaft

Der aktuelle Reuters Digital News Report 2024 markiert einen historischen Wendepunkt in der deutschen Medienlandschaft: Erstmals ist das Internet die wichtigste Nachrichtenquelle der Deutschen. Die umfassende Studie, die in 47 Ländern durchgeführt wurde, zeigt...