zum Inhalt springen

Tender Weakness: Was LLMs nicht beantworten können – ein Self-Challenge Framework

Datum: 18. Dezember 2024
Autor: Erwin König

In den letzten Jahren haben Large Language Models (LLMs) wie GPT-4 bemerkenswerte Fortschritte erzielt und vielfach Benchmarks überschritten, die zuvor von Menschen entwickelt wurden. Doch LLMs stoßen weiterhin an Grenzen, die in der wissenschaftlichen Diskussion zunehmend Gegenstand sind. In einer Studie von Yulong Chen et. al. wird untersucht, ob und wie ein LLM seine eigenen Schwächen erkennen kann. Hierzu wird ein neuer Evaluierungsansatz vorgestellt, der LLMs dazu auffordert, ihre Fehler selbstständig zu identifizieren und Muster zu entwickeln, die zur Erstellung anspruchsvollerer Testinstanzen beitragen. Mithilfe eines sogenannten Self-Challenge-Evaluierungsrahmens und unter Einbeziehung menschlichen Feedbacks wurden so acht charakteristische Fehlermuster erarbeitet, die später als Basis für den Benchmark SC-G4 dienen. Dieser umfassende Datensatz ermöglicht eine präzise Leistungsbewertung von LLMs wie GPT-4, Claude-3 und Llama-3. Die Ergebnisse zeigen, dass nur rund 45 % der Instanzen von GPT-4 korrekt beantwortet werden, was verdeutlicht, dass aktuelle LLMs an ihre Grenzen kommen.

...

Um den Artikel in voller Länge lesen zu können, benötigen Sie ein Abo. Jetzt Abo abschließen oder mit bestehendem Konto anmelden!

Mehr zum Thema:

Campus AI oder ChatGPT? Wie visuelle Anpassungen Vertrauen formen

Mit der wachsenden Verbreitung von KI-Diensten an Hochschulen stellt sich eine zentrale Frage: Wie beeinflussen visuelle und funktionale Anpassungen das Vertrauen in Large Language Models? Dieser Frage gehen Leon Hannig, Annika Bush, Meltem Aksoy, Steffen Becker und...

Einsatzmöglichkeiten von Sprachmodellen bei der Forschungsbewertung

Eine Analyse von über 6000 Fallstudien des britischen Research Excellence Framework in Person der Wissenschaftler Kayvan Kousha und Mike Thelwall, veröffentlicht in der aktuellen Ausgabe der Zeitschrift „JASIST – Journal of the Association for Information Science and...

Anxiety in der Hochschullehre: zögerlicher Einsatz von ChatGPT

Eine aktuelle Studie von Domingo Verano-Tacoronte, Alicia Bolívar-Cruz und Silvia Sosa-Cabrera im Journal „Education and Information Technologies” untersucht, wie technologiebezogene Ängste die Bereitschaft von Hochschullehrenden beeinflussen, ChatGPT im Unterricht...