Alexander - stock.adobe.com

Warum Mensch und KI kein gutes Team sind und was helfen würde

Eine Studie der TU Berlin zeigt, dass Mensch-KI-Teams oft schlechter abschneiden als die Systeme allein. Ursachen liegen in Rollenverständnis, Fehlvertrauen und unklarer Aufsicht.

In einem Positionspapier fasst die Technische Universität Berlin zusammen, was Projekte in den Bereichen Radiologie, Sicherheitstechnik und Prozessüberwachung seit Jahren andeuten. Teams aus Fachkräften und KI-Systemen treffen häufig schlechtere Entscheidungen als die künstliche Intelligenz (KI) allein – insbesondere, wenn die Modelle sehr zuverlässig sind. In solchen Konstellationen werden korrekte Empfehlungen überstimmt oder ignoriert – sei es aufgrund des Rollenverständnisses, einer unterschätzten Systemzuverlässigkeit oder weil es an klaren Leitlinien für Eingriffe mangelt.

Was die TU Berlin beobachtet

Das Positionspapier (PDF) der TU Berlin lenkt den Blick weg vom klassischen Fehlgebrauch, also dem blinden Folgen falscher Empfehlungen (misuse) hin zu Übersteuerung beziehungsweise eine Nichtnutzung hilfreicher Hinweise (disuse). Fachleute greifen ein, obwohl das System recht hat, und verschlechtern so das Gesamtergebnis. Belege dafür finden sich etwa bei visuellen Suchaufgaben (zum Beispiel Gepäck-Screening), in der Radiologie und bei numerischen Entscheidungen.

Wichtig ist die Zielgröße: Das Mensch-KI-Team sollte besser sein als jede Einzelkomponente. Konkret bedeutet dies, dass das Zusammenspiel aus Mensch und KI den Menschen allein übertreffen sollte – und idealerweise auch die KI allein. Gerade der zweite Anspruch wird in vielen Studien verfehlt.

Diese Diagnose fügt sich in eine Meta-Analyse von über 100 Experimenten ein. Im Durchschnitt schneiden Mensch-KI-Kombinationen schlechter ab als die jeweils beste Einzelkomponente. Verluste treten vor allem bei Entscheidungsaufgaben auf.

Gründe für unnötige Eingriffe

Bei den Ursachen für das menschliche Verhalten stechen zwei Mechanismen heraus:

  • Rollenanspruch und Verantwortung: Wer als „letzte Instanz“ gilt, möchte dieser Rolle gerecht werden und greift eher ein – auch ohne zusätzliche Erkenntnisse.
  • Fehleinschätzung der Zuverlässigkeit: Seltene Fehler der KI werden überbewertet, während die hohe Gesamtleistung unterschätzt wird. Das untergräbt berechtigtes Vertrauen und fördert vorschnelle Korrekturen.

Hinzu kommen Quellen-Bias (Ratschläge werden schlechter bewertet, wenn sie als von der KI gekennzeichnet sind) sowie eine unzureichend verhaltensleitend gestaltete Benutzeroberfläche, etwa mit unklaren Unsicherheitsanzeigen, fehlenden Warnstufen oder ohne Pflichtfelder zur Begründung bei Übersteuerungen. Wenn unklar ist, wann ein Abnicken sinnvoll ist und wann nicht, steigt die Eingriffsquote.

Konflikt mit der EU-KI-Verordnung (EU AI Act)

Die EU-KI-Verordnung verlangt bei Hochrisikosystemen wirksame menschliche Aufsicht (Artikel 14). Das bedeutet, dass Menschen sinnvoll eingreifen können müssen. In der Praxis entsteht jedoch ein Spannungsfeld, wenn die Maschine statistisch überlegen ist, häufige Eingriffe aber die Leistung senken. Die Konsequenz daraus ist, dass die Aufsicht als Gestaltungsaufgabe zu verstehen ist – mit klaren Interventionsmöglichkeiten, Schulungen, geeigneten Schnittstellen und dokumentierten Verantwortlichkeiten. Human-in-the-Loop (HitL) darf nicht nur ein zusätzlicher Klick sein, sondern muss nachweislich zu besseren Ergebnissen beitragen. Wo eine ständige Beaufsichtigung nicht sinnvoll ist, kann Human-on-the-Loop (HoL) – also eine überwachende Beteiligung – ausreichen.

Warum klassische XAI oft nicht hilft

Unter erklärbarer KI (XAI) werden meist Feature-Attributionen (Merkmalsbeiträge) oder Saliency-Maps (Aufmerksamkeitskarten) verstanden. Diese Artefakte verbessern jedoch nicht zuverlässig die Erkennung von KI-Fehlern. In Studien wirken sie teilweise gar nicht, inkonsistent oder lenken die Aufmerksamkeit an die falsche Stelle. Für den klinischen Alltag oder die Schicht im Leitstand sind sie oft zu abstrakt.

Die TU Berlin schlägt deshalb verhaltensleitende Erklärungen vor. Anstatt die interne Technik zu erläutern, kommuniziert das System, wann es besonders zuverlässig ist und wann nicht. Ein Beispiel wäre: „Für Patientengruppe X sind meine Tumorprognosen sehr robust; für Patientengruppe Y bitte kritisch prüfen.“ Solche Hinweise lenken die Aufmerksamkeit dorthin, wo menschliche Expertise den größten Mehrwert liefert.

Ansatzpunkte für die Praxis

Damit die Zusammenarbeit sich nicht verschlimmbessert, sind Design- und Prozessänderungen nötig:

  • Modellkonfidenz und Fallkategorien sichtbar machen: Das System zeigt zu jeder Entscheidung die Konfidenz (Vorhersagewahrscheinlichkeit) an, die die Sicherheit der Einschätzung angibt, und ordnet den Fall als klar, grenzwertig oder unsicher ein. Klare Fälle können weitgehend übernommen werden, während unsichere gezielt geprüft werden.
  • Stärken/Schwächen offenlegen: Modelle sollten angeben, für welche Datenlagen, Klassen oder Sensorik sie gut kalibriert sind und wo ihre bekannten Schwächen liegen. Das ist Domänen-XAI statt allgemeiner Technik-Erklärung.
  • Adaptive Arbeitsteilung: Der Automationsgrad passt sich an die Modell-Konfidenz, den Falltyp und gegebenenfalls das Operator-Profil an. Das System übergibt nur dort, wo eine menschliche Prüfung die Erfolgswahrscheinlichkeit erhöht.
  • Override-Governance: Jede Abweichung vom KI-Vorschlag wird begründet und protokolliert (Unsicherheit, Datenqualität, Richtlinie, Haftung). Teams analysieren regelmäßig, welche Overrides nützlich sind, und drosseln schädliche Muster.
  • Messen statt nur regeln: Unternehmen sollten die Leistung von Mensch, KI und Mensch-KI-Team mit demselben Testdatensatz und anhand einheitlicher Metriken messen. Das Ziel ist ein nachweisbarer Team-Mehrwert. Die Ergebnisse gehören ins Qualitätsreporting.

Umsetzungsschritte im Betrieb

Die folgenden Schritte helfen dabei, Aufsicht und Zusammenarbeit mit KI im laufenden Betrieb verlässlich zu verankern. Sie schaffen klare Verantwortlichkeiten und messbare Verbesserungen.

  1. Baseline schaffen: Einheitliche Testdatensätze, klare Qualitätsmetriken (zum Beispiel Trefferquote, Falsch-Alarm-Rate, Durchlaufzeit) und getrennte Auswertungen für Mensch, KI und Team.
  2. Benutzeroberfläche für Aufsicht gestalten: Deutliche Unsicherheitssignale, einfache Möglichkeiten zum Eskalieren, nachvollziehbare Begründungsfelder und sinnvolle Voreinstellungen statt Zwangsinteraktion.
  3. Schulungen und Leitfäden: Kurzleitfäden, die konkret sagen, wann ein Abnicken angemessen ist und wann ein zweiter Blick Pflicht ist, sowie Trainings mit realistischen Grenzfällen.
  4. Domänenerklärungen etablieren: Kurze, fallbezogene Hinweise, die anzeigen, wo das Modell stark ist, sowie regelmäßige Updates bei Modellwechseln.
  5. Auditierbarkeit sicherstellen: Override-Gründe, Konfidenzen, Versionen und Ergebnisse lückenlos dokumentieren – für interne Reviews und externe Prüfungen nach EU-Recht.

Grenzen und Forschungsbedarf

Konfidenzschätzungen sind nicht immer perfekt kalibriert, vor allem außerhalb des Trainingskontexts. Auch verhaltensleitende Erklärungen müssen domänenspezifisch evaluiert werden, damit es nicht zu einer Hinweis-Überlastung kommt. Schließlich gilt: Wirksamkeit ist kontextabhängig. Was im Radiologie-Befund funktioniert, muss im Industrieleitstand nicht automatisch greifen.

Fazit

Eine wirksame Aufsicht entsteht nicht durch zusätzliche Klicks, sondern durch gezielte Verhaltenssteuerung und adaptive Arbeitsteilung. Wenn Systeme klar signalisieren, wann Zustimmung sinnvoll ist und wann eine kritische Prüfung nötig ist, sinkt die Zahl unnötiger Eingriffe. So kann das Team aus Mensch und KI das leisten, was es leisten soll: besser sein als jede Einzelkomponente – nachvollziehbar, auditierbar und im Einklang mit der EU-KI-Verordnung.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)