DIgilife - stock.adobe.com

Blinde Flecken in KI-Systemen erkennen und entschärfen

In KI-Systemen entstehen oft blinde Flecken, wenn sie reale Kontexte oder spezifische Details nicht erfassen. Sorgfältiges Training sorgt dafür, dass sie ihr Potenzial ausschöpfen.

Es gibt kaum noch Möglichkeiten, KI im Alltag zu entgehen: In Banken beraten Chatbots zu Kontomodellen, im Einzelhandel beantworten sie Kundenanfragen – und sogar in der Telemedizin kommen KI-Systeme bei der Einschätzung von Symptomen zum Einsatz.

Wenn die KI funktioniert wie geplant, eröffnen sich für Unternehmen enorme Chancen: Prozesse werden effizienter, Kundenbedürfnisse können schneller bedient und neue Services ermöglicht werden. Doch was passiert, wenn die vermeintlich smarte Technologie falsche Empfehlungen gibt, auf kritische Fragen nicht empathisch reagiert oder gesetzliche Regelungen missachtet? Die gefährlichsten Fehler von KI sind dabei oft nicht technischer Natur – sondern blinde Flecken.

Was sind blinde Flecken von KI?

Blinde Flecken in KI-Systemen entstehen, wenn diese reale Kontexte, kulturelle Feinheiten oder branchenspezifische Details nicht erfassen. Anders als klassische Bugs, bei denen die Ursache im Code liegt, basieren Blind Spots auf einem fundamentalen Missverständnis zwischen Modelllogik und realer Welt. Das Problem: KI-Systeme wissen nicht, was sie nicht wissen und wirken dabei oft überzeugender, als sie tatsächlich sind.

Diese Lücken treten besonders in sensiblen und komplexen Anwendungsbereichen zutage, etwa wenn ein KI-Chatbot:

  • medizinische Begriffe falsch interpretiert,
  • in der Finanzberatung steuerliche Besonderheiten nicht berücksichtigt,
  • in der Kundenkommunikation kulturelle Konnotationen übersieht oder
  • regulatorische Vorschriften in risikobehafteten Sektoren wie Pharmazie ignoriert.

Eine YouGov-Umfrage verdeutlicht, wie schwerwiegend die Folgen sein können: 71 Prozent der Befragten machen Unternehmen direkt verantwortlich für Fehler von KI-Chatbots – mit potenziellen Auswirkungen auf Image, Compliance und Haftung.

Warum interne Tests nicht ausreichen

In der Entwicklungspraxis werden KI-Systeme meist mit kontrollierten Datensätzen und Testszenarien geprüft. Diese reichen jedoch nicht aus, um die gesamte Bandbreite realer Interaktionen abzudecken. Insbesondere zwei Faktoren bleiben oft unberücksichtigt:

  1. Edge Cases – also seltene, aber kritische Ausnahmefälle, die in standardisierten Trainingsdaten kaum vorkommen.
  2. Kontextualität – wie zum Beispiel das Zusammenspiel von Sprache, Kultur, Nutzererwartungen und branchenspezifischen Anforderungen.

Die Folge: KI-Systeme verhalten sich in Live-Umgebungen anders als erwartet, liefern unverständliche Antworten, zeigen fehlende Empathie oder geben problematische Empfehlungen.

Crowdtesting: Wenn echte Nutzer und Experten testen

Eine mögliche Lösung liegt im sogenannten Crowdtesting. Dabei prüfen echte Nutzer – oft ergänzt durch Fachexperten – KI-Systeme in realitätsnahen Umgebungen. Zwei Perspektiven spielen hier eine zentrale Rolle:

1. Die Stimme der Kunden – durch Crowdtester

Crowdtester simulieren reale Benutzerinteraktionen. Sie decken dabei eine hohe Diversität an Kulturen, Sprachen, Altersgruppen und Nutzertypen ab. Diese Tester können etwa aufdecken, wenn ein Chatbot nicht barrierefrei funktioniert, die Sprache unnatürlich oder verwirrend wirkt, Rückfragen fehlen oder keine klaren nächsten Schritte angeboten werden.

Gerade in Branchen wie dem Einzelhandel, wo das Kundenerlebnis entscheidend ist, helfen diese Tests, Frustration zu vermeiden und die Akzeptanz zu erhöhen. Auch eine Omnisend Studie zeigt: 39 Prozent der Onlinekäufer haben bereits Käufe aufgrund schlechter KI-Interaktionen abgebrochen.

2. Die Perspektive der Fachexpertise – durch Domänenspezialisten

In Bereichen mit regulatorischen Anforderungen – etwa Finanzen, Medizin oder Recht – sind Spezialisten entscheidend. Sie erkennen etwa, ob steuerrechtliche Vorgaben korrekt berücksichtigt wurden, ein medizinischer Chatbot unangemessene Empfehlungen abgibt oder sensible Daten durch unbedachte KI-Antworten gefährdet werden.

Solche Experten liefern Kontext, den allgemeine KI-Modelle nicht kennen und prüfen, ob die KI nicht nur plausibel, sondern auch verantwortungsvoll und regelkonform agiert.

Anwendungsfälle aus der Praxis

Finanzsektor

Im Finanzdienstleistungssektor unterstützen erfahrene Tester bei der Erkennung von Schwachstellen wie unpräzisen Finanzberatungen, Fehlinterpretationen oder fehlenden kontextbezogenen Fragen. Zum Beispiel deckten Experten auf, dass der Chatbot eines Kunden spezifische Steuervorschriften für Besserverdiener ignorierte. Dies hätte für die Kunden potenziell nachteilige finanzielle Entscheidungen zur Folge haben können.

Oder auch ein weiterer KI-Chatbot, der für die Beratung zur Altersvorsorge entwickelt wurde. Die Altersvorsorge erstreckt sich über Jahrzehnte und ist voller Nuancen, die sich im Laufe der Zeit ändern können. Trotz ein paar hinterlegten Lehrbüchern mit hilfreichen Erkenntnissen ist es schwer, dieses Thema vollständig abzudecken. Die Einbeziehung zusätzlicher Fachexperten kann dabei helfen, diese Modelle zu verbessern, indem beispielsweise Einblicke in die Interpretation der Ergebnisse durch den Endnutzer gegeben werden.

Gesundheitswesen

Besonders im Gesundheitswesen ist es wichtig, mit Experten zusammenzuarbeiten, um klare Leitlinien zu definieren – was ein Chatbot bei der Beurteilung des Wohlbefindens von Patienten sagen sollte und was nicht. Sonst kommt es schnell zu falschen Diagnosen zum Beispiel bei gesundheitlich vorbelasteten Personen. Unabhängig davon, ob diese explizit geäußert werden oder nur impliziert werden, kann es zu schlechten Gesundheitsergebnissen bei Patienten und Haftungsrisiken bei den Anbietern führen.

Ein KI-System, das bei Patientenfragen missverständliche Fachbegriffe verwendet oder verwirrende Formulierungen verwendet, trägt außerdem dazu bei, Patienten zu verunsichern. Besonders solche mit begrenzten Gesundheitskenntnissen können durch ungenaue oder wenig hilfreiche Interaktionen beeinträchtigt werden. Hier können Crowdtester dabei helfen, Formulierungen zu identifizieren, die Patienten verunsichern oder verwirren könnten.

Alexander Waldmann, Applause

„Nur wenn KI-Systeme sorgfältig trainiert, kontinuierlich getestet und verantwortungsvoll eingesetzt werden, können sie ihr enormes Potenzial für Unternehmen wirklich entfalten.“

Alexander Waldmann, Applause

Einzelhandel

Eine häufige Schwäche von KI-Chatbots im Kundenservice ist, dass alle Kunden mit dem gleichen Produktwunsch vom Chatbot identisch behandelt werden. Trotz unterschiedlicher Motivationen, Erwartungen oder Loyalität zum Unternehmen.

Angenommen, ein Baumarkt setzt einen KI-Chatbot zur Beantwortung von Kundenfragen und zur Projektberatung ein. Ein professioneller Bauunternehmer und ein Immobilienerstkäufer könnten ähnliche Fragen an den Chatbot richten, verfügen jedoch über unterschiedliches Fachwissen. Der Chatbot muss seine Interaktion entsprechend anpassen. Um dies zu gewährleisten, überprüfen Fachexperten die Richtigkeit und Nützlichkeit der Ratschläge in beiden Fällen. Crowdtester geben Feedback zu Grammatik, Genauigkeit und Ausführlichkeit der Antworten und bewerten die Interaktionen hinsichtlich Markenbekanntheit und -loyalität.

Kontinuierliches Testen statt einmaliger Abnahme

Ein zentrales Learning aus der Praxis: KI-Qualität ist kein statischer Zustand. Modelle, Daten und regulatorische Rahmenbedingungen ändern sich kontinuierlich – ebenso wie die Erwartungen der Nutzer. Deshalb braucht es eine kontinuierliche Evaluierung, zum Beispiel durch:

  • regelmäßiges Crowd-Feedback,
  • prompt-basiertes Testing (Frage-Antwort-Analysen),
  • Red Teaming zur Risikoprävention,
  • Surveys zu Nutzerverständnis und Fairness.

Menschliche Aufsicht ist der Schlüssel zum Erfolg.

So leistungsfähig KI-Systeme auch sein mögen – sie können ihre eigenen Grenzen nicht erkennen. Blind Spots entstehen dort, wo eindeutig analysierbare Daten aufhören und die Unwägbarkeiten der Realität beginnen. Um diese Lücken zu identifizieren und zu schließen, braucht es die Kombination aus echter Nutzerperspektive und fachlicher Expertise. Nur wenn KI-Systeme sorgfältig trainiert, kontinuierlich getestet und verantwortungsvoll eingesetzt werden, können sie ihr enormes Potenzial für Unternehmen wirklich entfalten. So lässt sich sicherstellen, dass KI-Systeme nicht nur technisch, sondern auch ethisch, regulatorisch und menschlich überzeugen.

Über den Autor:
Alexander Waldmann ist Vice President bei Applause. Er ist dafür verantwortlich, den Erfolg von Testprojekten und Lösungsimplementierungen für Kunden in Europa sicherzustellen. Zudem ist er Experte in den Bereichen KI, Automatisierung, digitaler Zahlungsabwicklung sowie Sicherheit. Vor seiner Zeit bei Applause war Alex Gründer & CEO von netcorps, einer Full-Service-Beratung für IT, Usability, Softwareentwicklung und Sicherheitstests.

 

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)