
Verstehen Large Language Models (LLM) Wissenschaftler richtig?
Untersuchungen zeigen, dass die Ergebnisse von Large Language Models (LLM) noch immer zu undurchsichtig und inkonsistent sind, um wissenschaftliche Experten passend zu empfehlen.
Der Einsatz von Large Language Models (LLMs) als Alternative zu Suchmaschinen und Empfehlungsalgorithmen nimmt zu, aber erste Forschungsergebnisse deuten darauf hin, dass die Ergebnisse dieser Modelle noch immer inkonsistent und voreingenommen sind. Dies hat reale Konsequenzen, da LLMs eine immer größere Rolle bei unseren Entscheidungsprozessen spielen.
Algorithmische Empfehlungen zu verstehen ist schwierig. In der Vergangenheit gab es ganze Branchen, die sich damit befassten, die Ergebnisse von Suchmaschinen zu verstehen (und zu manipulieren) – aber die Komplexität unserer Online-Empfehlungen hat sich in nur wenigen Jahren um ein Vielfaches erhöht. Die enorme Vielfalt der Anwendungsfälle für LLMs hat dazu geführt, dass die Überprüfung einzelner Anwendungen für die Bekämpfung von Verzerrungen und Ungenauigkeiten unerlässlich geworden ist.
Wissenschaftler, Regierungen und die Zivilgesellschaft bemühen sich, die Ergebnisse dieser Modelle zu verstehen. Eine Gruppe von Forschern am Complexity Science Hub in Wien hat sich mit einem Bereich befasst, in dem diese Modelle besonders häufig zum Einsatz kommen: der Identifizierung von wissenschaftlichen Experten. Konkret interessierten sich diese Forscher dafür, welche Wissenschaftler von diesen Modellen empfohlen werden – und welche nicht.
Lisette Espín-Noboa, eine Informatikerin, die an dem Projekt mitarbeitet, hatte sich bereits vor dem Markteintritt der großen LLMs mit diesem Thema beschäftigt: „Im Jahr 2021 organisierte ich einen Workshop und wollte eine Liste mit Hauptrednern erstellen.“ Zunächst wandte sie sich an Google Scholar, eine frei zugängliche Datenbank mit Wissenschaftlern und ihren Veröffentlichungen. „[Google Scholar] ordnet sie nach Zitaten – aber aus mehreren Gründen sind Zitaten voreingenommen.“
Das bedeutete, dass sie sich durch Seiten über Seiten mit männlichen Wissenschaftlern arbeiten musste. Einige Wissenschaftsbereiche sind einfach beliebter als andere, sodass Forscher allein aufgrund der Größe ihres Fachgebiets mehr Einfluss haben. Ein weiteres Problem ist, dass ältere Wissenschaftler – und ältere Forschungsarbeiten – naturgemäß mehr Zitate haben, einfach weil sie schon länger dabei sind, und nicht wegen der Neuartigkeit ihrer Ergebnisse.
„Es gibt oft eine Verzerrung zugunsten von Männern“, sagt Espín-Noboa. Auch wenn immer mehr Frauen in diesen Beruf einsteigen, sind die meisten wissenschaftlichen Disziplinen seit Jahrzehnten von Männern dominiert.
Daniele Barolo, ein weiterer Forscher am Complexity Science Hub, beschreibt dies als ein Beispiel für den Matthäus-Effekt. „Wenn man die Autoren nur nach der Anzahl der Zitate sortiert, ist es wahrscheinlicher, dass sie gelesen und daher zitiert werden, was zu einer Verstärkungsschleife führt“, erklärt er.
Espín-Noboa fährt fort: „Dann dachte ich mir: Warum nutze ich nicht LLMs?“ Diese Tools könnten auch die Lücken füllen, indem sie Wissenschaftler einbeziehen, die nicht in Google Scholar zu finden sind.
Zunächst mussten sie jedoch herausfinden, ob diese Tools eine Verbesserung darstellten. „Wir haben mit diesen Audits begonnen, weil wir wissen wollten, wie viel sie über Menschen wissen und ob sie gegenüber Männern voreingenommen sind oder nicht“, sagt Espín-Noboa. Die Forscher wollten auch herausfinden, wie genau die Tools sind und ob sie Vorurteile aufgrund der ethnischen Zugehörigkeit zeigen.

Audit
Sie entwickelten ein Experiment, mit dem sie die Empfehlungen von LLMs in verschiedener Hinsicht testen wollten, wobei sie ihre Anfragen auf Wissenschaftler beschränkten, die in der Zeitschrift der American Physical Society veröffentlicht hatten. Sie baten die LLMs um verschiedene Empfehlungen, beispielsweise zu den wichtigsten Persönlichkeiten in bestimmten Fachgebieten oder zur Identifizierung von Experten aus bestimmten Zeiträumen.
Zwar konnten sie den absoluten Einfluss eines Wissenschaftlers nicht testen – eine solche Grundwahrheit gibt es nicht –, doch das Experiment brachte einige interessante Ergebnisse zutage. Ihre Arbeit, die seit Ende Mai 2025 als Vorabdruck verfügbar ist, legt nahe, dass asiatische Wissenschaftler in den Empfehlungen der LLMs deutlich unterrepräsentiert sind und dass bestehende Vorurteile gegenüber weiblichen Autoren oft reproduziert werden.
Trotz detaillierter Anweisungen halluzinierten diese Modelle in einigen Fällen die Namen von Wissenschaftlern, insbesondere wenn sie um lange Listen mit Empfehlungen gebeten wurden, und waren nicht immer in der Lage, zwischen verschiedenen Fachgebieten zu unterscheiden.
„LLMs können nicht direkt als Datenbanken betrachtet werden, da es sich um linguistische Modelle handelt”, sagt Barolo.
Ein Test bestand darin, dem LLM den Namen eines Wissenschaftlers vorzugeben und es nach einer Person mit ähnlichem akademischem Profil – einem „statistischen Zwilling” – zu fragen. Dabei wurden jedoch „nicht nur Wissenschaftler empfohlen, die tatsächlich in einem ähnlichen Fachgebiet arbeiten, sondern auch Personen mit einem ähnlich aussehenden Namen”, fügt Barolo hinzu.
Wie bei allen Experimenten gibt es gewisse Einschränkungen: Zunächst einmal wurde diese Studie nur mit Open-Weight-Modellen durchgeführt. Diese weisen ein gewisses Maß an Transparenz auf, wenn auch nicht so viel wie vollständig quelloffene Modelle. Benutzer können bestimmte Parameter festlegen und die Struktur der Algorithmen ändern, die zur Feinabstimmung ihrer Ergebnisse verwendet werden. Im Gegensatz dazu sind die meisten der größten Basismodelle Closed-Weight-Modelle mit minimaler Transparenz und geringen Anpassungsmöglichkeiten.
Aber auch offene Modelle stoßen auf Probleme. „Man weiß nicht genau, wie der Trainingsprozess durchgeführt wurde und welche Trainingsdaten verwendet wurden“, erläutert Barolo.
Die Forschung wurde mit Versionen der Llama-Modelle von Meta, Gemma von Google (ein kleineres Modell als ihr Flaggschiff Gemini) und einem Modell von Mistral durchgeführt. Jedes dieser Modelle wurde bereits durch neuere Modelle abgelöst – ein Dauerproblem für die Forschung zu LLMs, da die akademische Pipeline nicht so schnell vorankommen kann wie die Industrie.
Abgesehen von der Zeit, die für die Durchführung der Forschung selbst benötigt wird, können Veröffentlichungen monatelang oder sogar jahrelang in der Begutachtung hängen bleiben. Hinzu kommt, dass die mangelnde Transparenz und die sich ständig ändernde Natur dieser Modelle Schwierigkeiten bei der Reproduktion der Ergebnisse verursachen können, was ein entscheidender Schritt im wissenschaftlichen Prozess ist.
Eine Verbesserung?
Espín-Noboa hat sich zuvor mit der Prüfung von weniger technologisch anspruchsvollen Ranking-Algorithmen befasst. Im Jahr 2022 veröffentlichte sie eine Arbeit, in der sie die Auswirkungen von PageRank analysierte – dem Algorithmus, der Google Ende der 1990er Jahre wohl den großen Durchbruch bescherte. Seitdem wird er von LinkedIn, Twitter und Google Scholar verwendet.
PageRank wurde entwickelt, um eine Berechnung auf der Grundlage der Anzahl der Links zu erstellen, die ein Element in einem Netzwerk hat. Im Falle von Webseiten sind dies die Anzahl der Websites, die auf eine bestimmte Website verlinken; für Wissenschaftler kann eine ähnliche Berechnung auf der Grundlage von Co-Autorenschaften vorgenommen werden.
Die Forschung von Espín-Noboa zeigt, dass der Algorithmus seine eigenen Probleme hat – er kann Minderheiten benachteiligen. Trotzdem ist PageRank nach wie vor grundlegend auf Empfehlungen ausgelegt.
Im Gegensatz dazu „sind LLMs keine Ranking-Algorithmen – sie verstehen derzeit nicht, was ein Ranking ist”, sagt Espín-Noboa. Stattdessen sind LLMs probabilistisch – sie versuchen, die richtige Antwort zu erraten, indem sie die Wahrscheinlichkeiten von Wörtern abwägen. Espín-Noboa sieht in ihnen nach wie vor Potenzial, sagt aber, dass sie in ihrer derzeitigen Form noch nicht ausgereift sind.
Diese Forschung hat auch eine praktische Komponente, da die Forscher eine Möglichkeit schaffen möchten, mit der Menschen besser nach Empfehlungen suchen können.
„Unser Ziel ist es, ein Tool zu entwickeln, mit dem der Nutzer einfach in natürlicher Sprache interagieren kann“, sagt Barolo. Dieses Tool wird auf die Bedürfnisse des Nutzers zugeschnitten sein und ihm ermöglichen, auszuwählen, welche Themen für ihn wichtig sind.
„Wir glauben, dass die Entscheidungsgewalt beim Nutzer liegen sollte, nicht beim LLM“, sagt Espín-Noboa. Sie nennt als Beispiel den Bildgenerator Gemini von Google, der Vorurteile überkorrigiert hat – nach einem Update wurden die amerikanischen Gründerväter (und Nazi-Soldaten) als Menschen mit dunkler Hautfarbe dargestellt, was dazu führte, dass das Unternehmen den Dienst vorübergehend einstellte.
Anstatt dass Technologieunternehmen und Programmierer weitreichende Entscheidungen über die Ergebnisse des Modells treffen, sollten die Nutzer die für sie wichtigsten Themen auswählen können.
Das Gesamtbild
Forschungsarbeiten wie die am Complexity Science Hub finden in ganz Europa und weltweit statt, da Wissenschaftler versuchen, zu verstehen, wie diese neuen Technologien unser Leben beeinflussen.
Die Wissenschaft habe „eine wirklich wichtige Rolle zu spielen“, sagt Lara Groves, Senior Researcher am Ada Lovelace Institute. Groves hat untersucht, wie Audits in verschiedenen Kontexten durchgeführt werden, und sagt, dass Gruppen von Wissenschaftlern – wie die jährliche FAccT-Konferenz zu Fairness, Transparenz und Rechenschaftspflicht – „die Bedingungen für die Durchführung von Audits festlegen.“
Auch ohne vollständigen Zugriff auf die Trainingsdaten und die Algorithmen, auf denen diese Tools basieren, hat die Wissenschaft „die Evidenzbasis dafür aufgebaut, wie, warum und wann man diese Audits durchführen könnte”. Sie warnt jedoch davor, dass diese Bemühungen durch den Umfang des Zugangs, der den Forschern gewährt wird, behindert werden können, da sie oft nur die Ergebnisse einsehen können.
Trotzdem würde sie sich wünschen, dass mehr Bewertungen „auf der Ebene des Basismodells” stattfinden. Groves fährt fort: „Diese Systeme sind sehr stochastisch und sehr dynamisch, sodass es unmöglich ist, den Umfang der Ergebnisse im Vorfeld zu bestimmen.“ Mit anderen Worten: Die enorme Variabilität der Ergebnisse von LLMs bedeutet, dass wir zunächst einen Blick unter die Haube werfen sollten, bevor wir uns ihre Anwendungsfälle ansehen.
Andere Branchen – wie die Luftfahrt oder die Cybersicherheit – verfügen bereits über strenge Prüfungsverfahren. „Es ist nicht so, dass wir von Grund auf neu oder bei Null anfangen. Es geht darum, herauszufinden, welche dieser Mechanismen und Ansätze mit KI vergleichbar sind”, fügt Groves hinzu.
Inmitten eines Wettrüstens um die Vorherrschaft im Bereich der KI werden alle Tests, die von den großen Akteuren durchgeführt werden, streng geheim gehalten. Gelegentlich gab es jedoch Momente der Offenheit: Im August führten OpenAI und Anthropic gegenseitige Audits ihrer Modelle durch und veröffentlichten ihre Ergebnisse.
Ein Großteil der Arbeit zur Untersuchung von LLMs wird weiterhin von Außenstehenden geleistet werden. Methodische, unabhängige Forschung kann uns einen Einblick in die Funktionsweise dieser Tools geben und vielleicht sogar dazu beitragen, sie zum Besseren zu verändern.