ÐаÑеÑина ÐвÑеÑов
Beispiele für KI-Fehlschläge: Was CIOs daraus lernen können
Das eigentliche Risiko von KI liegt nicht im Experimentieren, sondern in der praktischen Anwendung. Vor der Skalierung von KI-Systemen müssen Führungskräfte einige Punkte beachten.
Executive Summary
- Zu den Fehlern im KI-Bereich zählen Halluzinationen, Verzerrungen, Fehlfunktionen der Automatisierung und Modelldrift. Diese treten häufig auf, wenn Systeme von der Pilotphase in den Produktivbetrieb übergehen.
- Ob KI einen Mehrwert liefert oder rechtliche, finanzielle und Reputationsrisiken mit sich bringt, entscheiden Governance, Datenqualität, Integrationsplanung und die Überwachung durch den Menschen („Human-in-the-Loop“).
- IT-Führungskräfte müssen KI als fortlaufende Fähigkeit betrachten, die kontinuierliche Überwachung, klare Zuständigkeiten, Kostenkontrolle und funktionsübergreifende Verantwortlichkeit erfordert.
Mit der zunehmenden Verbreitung von KI werden Fehler immer sichtbarer und kostspieliger.
Beispiele aus der Praxis, wie halluzinierende Copiloten, voreingenommene Algorithmen, KI-bedingte Ausfälle und rechtliche Risiken, verdeutlichen die Gefahren, denen Unternehmen in Bezug auf Einsatzbereitschaft, Governance und Einsatz ausgesetzt sind.
In Produktionsumgebungen können Schwachstellen zutage treten, die in der Pilotphase noch nicht vorhanden waren. So verwendete beispielsweise im Januar 2026 ein australisches Reiseunternehmen einen von KI generierten Blogbeitrag auf seiner Website. Der Blog pries verschiedene Touristenattraktionen an, darunter Thermalquellen im Norden Tasmaniens. Diese existieren jedoch gar nicht, sodass Touristen aufgrund dieser KI-Halluzination auf eine Fantasiereise geschickt wurden.
Weitere häufige KI-Fehler sind Systeme, die in komplexen Situationen falsche Anweisungen geben, sowie Modelle, die mit Datenvariabilität zu kämpfen haben. Auch Kostenprognosen, die bei steigendem Entwicklungsaufwand in die Höhe schnellen, sind ein Problem. Diese KI-Fehler stellen vorhersehbare Ausfallmuster dar, aus denen CIOs konkrete Lehren ziehen können.
Fehler durch KI-Halluzinationen
Die Erfindung von Informationen durch GenAI-Systeme ist eine der auffälligsten und rechtlich bedeutsamsten Fehlerarten, mit denen Unternehmen konfrontiert sind.
Rebecca Wettemann, CEO des Branchenanalyseunternehmens Valoir, arbeitete mit einem Haushaltsgerätehersteller zusammen, der einen Chatbot entwickelt hatte, um Kunden bei einfachen Reparaturen zu unterstützen. Das System hatte Zugriff auf alle Produkt- und Servicehandbücher und verfügte über mehr als 100 verschiedene Anleitungen zum Filterwechsel für unterschiedliche Modelle. Wettemann berichtet, das Ergebnis sei „eine zusammengewürfelte Version mehrerer Anleitungssätze, ein komplettes Durcheinander“ gewesen. Das Unternehmen musste seine Wissensdatenbank mit einem modulareren Ansatz neu aufbauen. Dabei wird zunächst das spezifische Modell des Kunden überprüft, bevor Anweisungen ausgegeben wurden.
Lehren für CIOs:
- Halluzinationen sind keine Ausnahmefälle, sondern bekannte Fehlerarten, die Schutzmaßnahmen und Validierungsebenen erfordern.
- Stützen Sie KI-Agenten auf verifizierte Datenquellen, bevor Sie eine Interaktion mit Kunden zulassen.
- Führen Sie eine Überwachung der Modellleistung ein, um Erfindungsmuster frühzeitig zu erkennen.
Voreingenommenheit und Diskriminierung
KI-Modelle können Diskriminierung auf eine Weise verinnerlichen und verstärken, die rechtliche Risiken mit sich bringt – insbesondere bei Entscheidungen in den Bereichen Personalbeschaffung, Kreditvergabe und Dienstleistungserbringung. Die Herausforderung ergibt sich aus Trainingsdaten, die historische Ungleichheiten widerspiegeln, oder aus Modellen, die diskriminierende Auswirkungen von Mustern nicht berücksichtigen.
Wettemann rät deshalb dazu, dass Teams über klare Richtlinien und Prüfmöglichkeiten verfügen müssen. „Teams müssen sicherstellen, dass sie verstehen und kommunizieren, wie ihre KI trainiert wird und wie ihre Daten verwendet werden. Sie müssen über klare Richtlinien und Überprüfungsmöglichkeiten verfügen, um sich zu schützen“, sagt sie.
Lehren für CIOs:
- Voreingenommenheit (Bias) hat ihren Ursprung oft in Trainingsdaten und Lücken in der Governance, nicht in böswilliger Absicht.
- Kontinuierliche Überprüfungen sind genauso wichtig wie anfängliche Tests.
- Führen Sie eine fortlaufende Überwachung ein, um Voreingenommenheit zu erkennen, wenn Modelle mit realen Bevölkerungsgruppen interagieren.
Automatisierung, die schiefgeht
Eine übermäßige Automatisierung ohne angemessene Aufsicht kann zu einer Verstärkung von Fehlern führen, wenn KI-Systeme weitreichende Entscheidungen treffen, ohne dass Überprüfungsmechanismen oder menschliche Kontrollen vorhanden sind.
Jon Knisley, Leiter des Bereichs „AI Enablement and Value“ bei ABBYY, arbeitete mit einem großen US-amerikanischen Krankenversicherungskunden zusammen. Dieser hatte ein LLM-basiertes System zur Prüfung von Leistungsanträgen vor der Auszahlung erworben. Nach sechsmonatiger Entwicklungszeit und Investitionen war das System langsam, der Betrieb war teuer und das System lieferte inkonsistente Ergebnisse. So wurden berechtigte Leistungsanträge aus vagen Gründen als fehlerhaft markiert, die das Betriebsteam nicht erklären konnte.
Als Knisleys Team der Sache nachging, stellte es fest, dass das System einfache Musterabgleiche auf der Grundlage bestimmter Kombinationen aus Verfahrenscodes und Dollarbetragsschwellen durchführte. Dabei war keinerlei Verständnis natürlicher Sprache erforderlich.
„Letztendlich implementierten wir eine Reihe relativ einfacher Regex-Zeichenfolgen und Geschäftsregeln, die in Sekundenschnelle abliefen, nur einen Bruchteil der LLM-Inferenzgebühren kosteten und konsistente, nachvollziehbare und genaue Ergebnisse lieferten“, erklärt Knisley.
Ein anderes Automatisierungsrisiko trat bei Daylit zutage: Jerry Shu, Mitbegründer und Chief Technology Officer des Unternehmens, entwickelte KI-Agenten, die tägliche Aufgaben für CFOs generieren sollten, um die Forderungsabwicklung zu verbessern. Das rein agentenbasierte System erkannte die meisten Probleme, war jedoch nicht umfassend genug. „Die geschäftlichen Auswirkungen waren gravierend: Schon eine einzige übersehene Aufgabe im Bereich der Forderungsabwicklung kann negative wirtschaftliche Folgen haben“, sagt Shu. Das Unternehmen ergänzte das System um eine Komponente, die zeitbasierte Ereignisse scannt, um sicherzustellen, dass jede kritische Maßnahme im Bereich der Forderungen erkannt wird. So wurde ein hybrider Prozess geschaffen, der KI-Automatisierung mit deterministischen Backup-Systemen kombiniert.
Lehren für CIOs:
- Human-in-the-Loop-Kontrollen sind für Arbeitsabläufe mit hoher Auswirkung unerlässlich.
- Das Ziel ist eine angemessene Automatisierung mit klaren Eskalationswegen, nicht maximale Automatisierung.
- Kritische Prozesse benötigen Backup-Systeme, um versäumte Maßnahmen zu verhindern.
Fehler aufgrund von Datenqualität und Modelldrift
Eine schlechte Datenqualität ist einer der häufigsten Gründe dafür, dass KI-Initiativen nicht in die Produktion gelangen oder unzuverlässige Ergebnisse liefern.
Mariusz Pikuła, CTO und Mitbegründer von LLInformatics, hat bei zahlreichen Kundenprojekten eine Verschlechterung der Modellleistung beobachtet. Modelle werden auf synthetischen Datensätzen trainiert oder die Daten ändern sich, doch die Vorverarbeitungs-Pipeline bleibt unverändert.
„Überprüfen Sie Ihre Daten, validieren Sie sie regelmäßig, trainieren Sie das Modell regelmäßig neu und stellen Sie sicher, dass Ihr Modell nicht nur die Vergangenheit auswendig lernt”, rät Pikuła.
Dorotea Baljevic, Direktorin beim globalen Technologie-Forschungs- und Beratungsunternehmen ISG, stellt fest, dass die Entdeckung von Problemen mit der Modelldrift oft zu spät erfolgt.
„Die Entdeckung erfolgt oft zu spät und wird in der Regel eher von den Endnutzern als von den Systemverantwortlichen bemerkt.“
Lehren für CIOs:
- KI-Systeme erfordern kontinuierliche Überwachung, Nachtraining und Verantwortung – sie sind keine Einmal-Einrichten-und-vergessen-Lösungen.
- Ihre Leistung muss anhand realer Ergebnisse und nicht nur anhand technischer Kennzahlen überwacht werden.
- Es bedarf klarer Definitionen von Schwellenwerten sowie Anweisungen für Nachtraining, Rollback oder Außerbetriebnahme.
- Probleme mit der Datenqualität sind oft die Hauptursache dafür, dass Pilotprojekte vielversprechend ausfallen, die Produktionseinsätze jedoch hinter den Erwartungen zurückbleiben.
Integrations- und Infrastrukturprobleme
KI-Tools können bei der Integration in Altsysteme ausfallen oder zu Kostensprüngen führen, die während der Pilotphase nicht vorhergesehen wurden.
So arbeitete Knisley mit einer globalen Fast-Food-Kette zusammen, die Schwierigkeiten mit der KI-gestützten Datenextraktion aus gewerblichen Mietverträgen hatte. Das Unternehmen musste jede Woche mehr als 350 Datenfelder aus 30.000 Mietverträgen extrahieren. Zunächst testete man ein LLM, doch das Modell extrahierte die Felder entweder falsch oder übersah sie komplett, was zu nachgelagerten Compliance-Risiken führte. Die Trefferquote lag bei nur 63 Prozent.
Kein einzelnes KI-Tool konnte das Problem lösen. Knisleys Team testete fünf technische Ansätze, bevor es sich für einen hybriden Ansatz entschied. Dieser erreichte eine Genauigkeit von 87 Prozent und wurde durch einen Workflow zur manuellen Überprüfung aller Fälle unterhalb der Konfidenzschwelle ergänzt. „Die wichtigste Erkenntnis war, dass die KI mit Sicherheitsvorkehrungen ausgestattet werden musste”, sagt Knisley.
Er beobachtete einen weiteren Fall, in dem ein Finanzdienstleister beschloss, ein eigenes intelligentes Dokumentenverarbeitungssystem mit Hyperscaler-Tools aufzubauen. Die anfänglichen Prognosen schienen vernünftig, doch der technische Aufwand wurde unterschätzt. Eine Analyse der Gesamtbetriebskosten über drei Jahre ergab technische Arbeits- und Infrastrukturkosten von mehr als 1,5 Millionen US-Dollar – mehr als das Dreifache der Kosten einer speziell entwickelten Plattform.
Lehren für CIOs:
- KI-Bereitschaft ist eine architektonische Frage und kein datenwissenschaftliches Problem.
- Testen Sie vor der Skalierung frühzeitig die Integration mit Kernsystemen, um Probleme aufzudecken.
- Verstehen Sie, wie sich die Kosten bei tatsächlicher Nutzung skalieren, einschließlich des versteckten Entwicklungsaufwands.
- Legen Sie klare Kontingente fest und richten Sie eine abteilungsübergreifende Echtzeitüberwachung des KI-Verbrauchs ein.
Rechtliche, Compliance- und IP-Verstöße
Der Einsatz von KI birgt regulatorische Risiken, wenn Unternehmen ihre Entscheidungsprozesse nicht nachvollziehbar machen können oder der Umgang mit Daten gegen Datenschutz- und Compliance-Anforderungen verstößt. Diese Versäumnisse bei der KI-Governance sind oft auf die Kluft zwischen technischer Funktionalität und regulatorischen Anforderungen zurückzuführen.
Michael Murphy, Partner und globaler Leiter des Bereichs AI Readiness bei Adaptovate, betont, dass KI-Governance kein optionales Element ist. Sein Team half beispielsweise einem globalen Pharmaunternehmen bei der Einführung von „Verification Bots“. Diese unabhängigen Agenten überprüfen kundenorientierte Ergebnisse auf ihre Übereinstimmung mit rechtlichen Richtlinien.
Shu stand vor einer besonderen Herausforderung im Bereich der Daten-Governance: Es musste sichergestellt werden, dass KI-Agenten nur Daten zurückgeben, für deren Einsicht der jeweilige Nutzer autorisiert ist. So sollten Nachwuchskräfte in der Debitorenbuchhaltung beispielsweise keine Daten des Finanzvorstands einsehen können und ein Austausch von Daten zwischen Kunden sollte nicht möglich sein. Das System umfasste die Entwicklung strenger Tools zur direkten Durchsetzung von Datenschutzvorschriften.
Lehren für CIOs:
- Wenn KI-Entscheidungen nicht erklärt oder nachvollzogen werden können, werden sie zu einem Risiko.
- Führen Sie eine klare Dokumentation der Datenquellen und der Rechtsgrundlagen.
- Legen Sie vor der Einführung klare Zuständigkeiten für Datenschutz und Compliance fest.
- Verlangen Sie vor dem produktiven Einsatz eine funktionsübergreifende Überprüfung unter Einbeziehung von Rechts-, IT- und Geschäftsteams.
Anbieter- und Strategiefehler
Die Versprechen der Anbieter und die Realität in der Praxis können erheblich voneinander abweichen. Das kann zu kostspieligen Überverpflichtungen führen.
„Einer unserer großen Kunden, eine Anwaltskanzlei, kaufte einen Paralegal-Bot, nur um festzustellen, dass dieser nichts weiter als ein Briefbeschwerer war“, berichtet Murphy. „Die Kanzlei hatte ihre internen Daten nicht bereinigt und ihre Recherchesysteme nicht miteinander vernetzt, sodass der KI nichts zur Verarbeitung zur Verfügung stand.“
Murphy zufolge lag der Fehler darin, dem „attraktiven“ Tool Vorrang vor der unspektakulären Arbeit der Datenbereinigung und der Umgestaltung hin zu einer Agent-First-Architektur einzuräumen.
Lehren für CIOs:
- Der Hype der Anbieter schreitet oft schneller voran als die Bereitschaft der Unternehmen.
- Verlangen Sie Nachweise aus produktionsnahen Umgebungen, nicht nur aus kontrollierten Demos.
- Prüfen Sie genau, wie sich die Kosten bei tatsächlicher Nutzung skalieren, und verlangen Sie klare Ausstiegsmöglichkeiten.
- Priorisieren Sie Datenbereinigung und Prozessdefinition, bevor Sie hochentwickelte Tools einsetzen.
Wie CIOs aus Beispielen für KI-Fehlschläge lernen können
Die oben beschriebenen KI-Fehlschläge sind keine Einzelfälle, sondern zeigen, wo KI-Implementierungen häufig scheitern. Unternehmen haben KI als einmalige Einführung betrachtet und nicht als Fähigkeit, die eine kontinuierliche Steuerung, Überwachung und Verantwortungszuweisung erfordert. Die oben genannten Muster stellen vorhersehbare Fehlerquellen dar, die auftreten, wenn KI-Systeme mit der Komplexität der realen Welt, sich ändernden Bedingungen und Entscheidungen mit hohen Risiken konfrontiert werden. CIOs, die diese Muster erkennen, können vorbeugende Maßnahmen ergreifen, bevor Vorfälle auftreten. Sie sollten Folgendes tun:
- Schaffen Sie Governance-Rahmenwerke vor der Einführung und nicht erst nach Vorfällen. Legen Sie vor dem produktiven Einsatz eine klare Dokumentation der Datenquellen, definierte Verantwortlichkeiten für Datenschutz und Compliance sowie funktionsübergreifende Überprüfungsprozesse fest.
- Überwachen Sie kontinuierlich die Ergebnisse in der Praxis und nicht nur die technischen Kennzahlen. Vergleichen Sie die Leistung mit den tatsächlichen Geschäftsergebnissen und achten Sie auf Veränderungen bei Daten und Nutzungsmustern. - Legen Sie klare Schwellenwerte für das Umtrainieren, Zurücksetzen oder Außerbetriebnehmen fest.
- Verlangen Sie menschliche Überwachung für Arbeitsabläufe mit weitreichenden Auswirkungen. Selbst einfache Plausibilitätsprüfungen können Reputationsschäden verhindern. Pikuła betont, dass sensible Anwendungsfälle wie im Finanz- oder Gesundheitswesen Human-in-the-Loop-Kontrollen erfordern, die als unverzichtbare Sicherheitsnetze dienen.
- Führen Sie vor der Skalierung Pilotprojekte mit klar definierten Erfolgskriterien und Scheiterkriterien durch. Behandeln Sie die Versprechen von Anbietern als zu validierende Hypothesen und nicht als Garantien. Diese Denkweise verhindert eine verfrühte Skalierung und sorgt dafür, dass Experimente nicht zu kostspieligen Überverpflichtungen werden.
- Stimmen Sie die Verantwortlichkeiten im Bereich KI zwischen IT-, Daten-, Rechts- und Geschäftsteams ab. Eine solche Abstimmung stellt sicher, dass technische Teams die rechtlichen Anforderungen verstehen, Geschäftsteams die Grenzen der KI kennen und alle gemeinsam die Verantwortung für die Ergebnisse tragen.
- Betrachten Sie die KI-Bereitschaft als architektonische und organisatorische Herausforderung. Testen Sie frühzeitig die Integration mit Kernsystemen, machen Sie sich mit der Kostendynamik vertraut und investieren Sie in Datenhygiene und Prozessdefinition, bevor Sie komplexe Tools einsetzen. KI-Fehlschläge treten oft auf, weil die KI-Bereitschaft ausschließlich als datenwissenschaftliche Herausforderung und nicht als Infrastruktur- und Workflow-Problem betrachtet wird.
This article was originally published by SearchCIO.