Kategorie

Benchmarking

Tender Weakness: Was LLMs nicht beantworten können – ein Self-Challenge Framework

In den letzten Jahren haben Large Language Models (LLMs) wie GPT-4 bemerkenswerte Fortschritte erzielt und vielfach Benchmarks überschritten, die zuvor von Menschen entwickelt wurden. Doch LLMs stoßen weiterhin an Grenzen, die in der wissenschaftlichen Diskussion zunehmend Gegenstand sind. In einer Studie von Yulong Chen et. al. wird untersucht, ob und wie ein LLM seine eigenen Schwächen erkennen kann. Hierzu wird ein neuer Evaluierungsansatz vorgestellt, der LLMs dazu auffordert, ihre Fehler...

mehr lesen

Best Practices auf dem Prüfstand

In der bibliotheks- und informationswissenschaftlichen Fachliteratur finden sich relativ viele Arbeiten, die den Begriff "Best Practice" enthalten. Trotz dieser Häufigkeit gibt es nur wenige Untersuchungen, die sich mit der Frage beschäftigen, was mit diesem Ausdruck genau gemeint ist und wie man zuverlässig eine "Best Practice" erkennen kann? Um dies zu beantworten, wurde die existierende Fachliteratur zu diesem Thema analysiert. Mittels einer Literaturrecherche wurden zuerst 113 Beiträge zum...

mehr lesen