Thapana_Studio - stock.adobe.com

Warum KI an schlechter Datenqualität scheitert

Fehlerhafte oder veraltete Daten lassen selbst starke KI-Modelle scheitern. Datenqualität und aktives Metadatenmanagement entscheiden über den Erfolg von KI im Unternehmen.

KI-Systeme liefern nur so gute Ergebnisse, wie die zugrunde liegenden Daten es zulassen. Fehlerhafte, veraltete oder lückenhafte Datenbestände lassen selbst ausgereifte Modelle scheitern. Datenqualität und ein aktives Metadatenmanagement bilden deshalb die eigentliche Vorstufe jeder KI-Initiative.

Wer künstliche Intelligenz (KI) im Unternehmen produktiv betreibt, verschiebt den kritischen Punkt vom Modell zu den Daten. Das Bundesamt für Sicherheit in der Informationstechnik hat diese Verschiebung mit dem Katalog QUAIDAL aufgegriffen, der abstrakte Qualitätsanforderungen in konkrete Bausteine, Maßnahmen und Metriken überführt. Daneben liefert das BSI mit dem Papier Sicherer, robuster und nachvollziehbarer Einsatz von KI sowie dem Cloud-Kriterienkatalog AIC4 eine sicherheitsorientierte Grundlage. Eine Studie von Informatica beziffert den Anteil der Datenexperten, die mangelhafte Datenqualität als größte Hürde beim Return on Investment (ROI) von KI-Investitionen sehen, auf 82 Prozent. Diese Zahl markiert eine Verlagerung des Engpasses weg von der Rechenleistung hin zur Datengrundlage.

Warum Daten den Ausschlag geben

Ein KI-Modell kodiert Muster aus seinen Trainingsdaten. Das BSI beschreibt tiefe neuronale Netze als Systeme mit Millionen von Parametern, deren Reaktionen auf Eingaben implizit kodiert sind. Qualität und Quantität der Trainings- und Testdaten bestimmen die Funktionsweise des Modells maßgeblich. Bereits geringe Abweichungen in den Eingabedaten können das Verhalten stark verändern, da die Modelle sensitiv reagieren. Daraus folgt eine einfache Konsequenz: Unzureichende Daten erzeugen verzerrte, unzuverlässige oder schlicht falsche Ausgaben, und das oft, ohne dass die Ursache sichtbar wird.

Der Begriff Datenqualität hat sich im KI-Kontext erweitert. Es geht nicht mehr allein um Korrektheit, sondern um Konsistenz über Quellen und Systeme hinweg, um kontextbezogene Relevanz gegenüber Geschäftszielen und Modellen, um Konnektivität im gesamten Daten-Ökosystem und durch kontinuierliche Aktualisierungen in nahezu Echtzeit. Diese erweiterte Definition sprengt klassische Datenbereinigung. Sie verlangt einen Ansatz, der Qualität in jede Phase des Datenlebenszyklus einbettet, von der Einspeisung über die Umwandlung bis zur Nutzung.

AI-Ready Data und ihre Merkmale

Daten für KI-Anwendungen müssen vorbereitet sein, bevor sie in nachgelagerte Prozesse gelangen. Eine Reihe von Eigenschaften kennzeichnet diese Bereitschaft. Daten sollten vielfältig sein und aus einem breiten Spektrum an Quellen stammen, denn schmale, isolierte Datensätze fördern Verzerrungen. Strukturierte Bestände aus Datenbanken, SAP-Systemen oder SaaS-Anwendungen gehören ebenso dazu wie unstrukturierte Inhalte aus Dokumenten und Dateien. Aktualität ist ebenso zentral. Modelle, die auf veralteten Informationen trainieren, geben veraltete Antworten. Niedriglatente Pipelines, Change Data Capture für relationale Quellen und Stream-Verfahren für Sensordaten halten den Bestand frisch.

Genauigkeit ruht auf mehreren Säulen. Data Profiling erschließt Struktur, Vollständigkeit und Verteilung eines Datensatzes. Regelbasierte Bereinigung, fortlaufendes Monitoring und Deduplizierung halten den Bestand stabil. Data Lineage und Impact-Analyse machen Herkunft und Wirkung von Änderungen nachvollziehbar und schützen vor unbeabsichtigter Modifikation der Daten, mit denen ein Modell arbeitet. Sicherheit ergänzt diese Dimensionen durch Klassifizierung nach Schutzbedarf, durch Maskierung und Tokenisierung sensibler Inhalte sowie durch klare Zugriffskontrollen. Schließlich müssen Daten für Maschinen konsumierbar sein. Gut geformte, tabellarische Strukturen erweisen sich für ML-Systeme als am besten verarbeitbar.

Aktives Metadatenmanagement als Steuerungsebene

Auffindbarkeit hängt von Metadaten ab. Neben technischen Metadaten zu Datensätzen brauchen Unternehmen fachliche Metadaten und semantische Typisierung. Ein Geschäftsglossar ordnet fachliche Begriffe den technischen Elementen zu und sichert ein gemeinsames Verständnis. Ein Datenkatalog indexiert die Metadaten und macht sie durchsuchbar. Ohne diese Ebene bleiben selbst hochwertige Bestände praktisch unsichtbar für die Workloads, die sie benötigen.

Metadatenmanagement durchläuft einen Wandel von der passiven Dokumentation zur aktiven Orchestrierung. Gartner beschreibt diese Entwicklung als Verschiebung von augmentierten Datenkatalogen hin zu Plattformen, die Metadaten überall im Daten-Ökosystem verfügbar machen (Gartner: Magic Quadrant for Metadata Management Solutions, November 2025). Aktive Metadaten überwachen Daten in Echtzeit, melden Qualitätsprobleme automatisch und stoßen Anpassungen an Workflows an. Eine strategische Planungsannahme der Analysten lautet, dass Organisationen, die Metadaten-Analytik über ihr gesamtes Datenmanagement hinweg nutzen, die Bereitstellungszeit neuer Daten-Assets bis 2027 um bis zu 70 Prozent senken. Diese Annahme zeigt, dass Metadaten nicht länger Beiwerk sind, sondern ein Hebel für Geschwindigkeit.

Die Marktbewegung untermauert den Trend. Im Jahr 2025 übernahm ServiceNow den Anbieter data.world, Coalesce kaufte CastorDoc, und Salesforce schloss eine Vereinbarung zur Übernahme von Informatica. IBM bündelte seine Metadatenprodukte unter watsonx.data intelligence. Offene Standards wie OpenLineage und das Open Data Contract Standard gewinnen an Bedeutung, da Metadaten zwischen heterogenen Werkzeugen fließen müssen.

Bias und Halluzinationen über den Lebenszyklus

Verzerrungen entstehen an mehreren Punkten des Modelllebenszyklus. Schon die Pre-Trainingsdaten aus dem Internet enthalten soziale und kulturelle Voreingenommenheiten, die das Modell in seine Wahrscheinlichkeitsberechnung übernimmt. Auch die Feinabstimmung erzeugt Fehler, da Sprachmodelle plausible Antworten aus Mustern kombinieren. Falsch oder inkonsistent gelabelte Daten können im Extremfall bessere Gewichtungen aus dem Pre-Training überschreiben, ein Effekt, der als Catastrophic Forgetting beschrieben wird. Im laufenden Betrieb, der Inferenz, prallen interne Quellen wie Archive und Handbücher mit externen Feeds zusammen, die jeweils eigene Verzerrungen mitbringen.

Für generative Anwendungen verschärft sich das Problem im Retrieval-augmented-Generation-Verfahren (RAG). Dabei wird Unternehmenswissen aus Dokumenten in handhabbare Stücke zerlegt, in numerische Repräsentationen überführt und in einer Vektordatenbank abgelegt. Die Qualität der zugrunde liegenden Dokumente entscheidet über die Verlässlichkeit der Antworten. Dokumente müssen dazu korrekt, vollständig und konsistent sein, damit ein Sprachmodell verlässlich antwortet. Ein kleineres Sprachmodell mit hochwertiger Datenbasis übertrifft ein großes Modell mit mangelhaften Daten.

Manipulationsresistenz und Nachweisbarkeit

Datenqualität schließt Sicherheit ein. Das BSI benennt mehrere KI-spezifische Angriffe. Bei Data-Poisoning-Angriffen manipulieren Angreifer die Trainingsdaten, sodass das Modell auf bestimmte Eingaben unerwünscht reagiert. Evasion-Angriffe verleiten ein Modell im Betrieb durch manipulierte Eingaben zu falschen Ausgaben. Privacy-Angriffe extrahieren Informationen über die Trainingsdaten, zum Beispiel durch Membership Inference. Aus diesem Grund empfiehlt das BSI ein professionelles Datenmanagement, das Daten und Modelle gegen Manipulation schützt, Änderungen protokolliert und jedes Datum seiner Quelle zuordnet. Besondere Vorsicht gilt bei Daten und Modellen aus externen Quellen, deren Einsatz das anwendungsspezifische Risiko berücksichtigen muss.

Die Nachweisbarkeit reicht bis in die Reproduzierbarkeit des Trainings. Das BSI geht darauf ein, dass nicht-deterministische Trainingsalgorithmen, abweichende Bibliotheksversionen und unterschiedliche Hardwareumgebungen bei identischem Code zu abweichenden Modellparametern führen können. Reproduzierbarkeit gilt darin als Voraussetzung, um Modellverbesserungen von zufälligen Effekten zu unterscheiden und Kausalität herzuleiten. Datenstände, Vorverarbeitungsschritte und Konfigurationen gehören dokumentiert und versioniert. Das schafft die Grundlage für Audits und für die Erklärbarkeit von Ergebnissen. Formale Verifikationsverfahren erweitern diesen Ansatz, indem sie Eigenschaften gelernter Modelle gegenüber Spezifikationen prüfen und Trainingsdaten gezielt um Problemszenarien ergänzen.

Regulatorischer Rahmen

Datenqualität ist zur messbaren Voraussetzung für die Marktfähigkeit vieler KI-Systeme geworden. Die KI-Verordnung der EU (EU AI Act) verlangt für Hochrisiko-Systeme Trainings-, Validierungs- und Testdaten, die relevant, repräsentativ, fehlerfrei und vollständig sind und keine Verzerrungen enthalten, die zu diskriminierenden Ergebnissen führen. Der Großteil der Verordnung wird ab August 2026 wirksam. Die Pflichten für Hochrisiko-Anwendungen nach Anhang III verschieben sich nach der Trilog-Einigung vom Mai 2026 voraussichtlich auf den 2. Dezember 2027, wobei die formale Annahme zum jetzigen Zeitpunkt noch aussteht (EUR-Lex, COM 2025). Unternehmen, die früh dokumentierte und reproduzierbare Datenprozesse aufbauen, reduzieren den späteren Aufwand erheblich.

QUAIDAL setzt an dieser Stelle an. Der Katalog definiert auf Basis gängiger Normen zehn zentrale Qualitätskriterien und bildet sie in 143 Metriken und Methoden ab, vom Sammeln und Bereinigen über Bias-Detektion bis zu Datenschutz, Governance und Audits. Die Bausteine stehen maschinenlesbar zur Verfügung. Damit lassen sich abstrakte regulatorische Vorgaben in überprüfbare Schritte überführen, ein Vorgehen, das Anbieter von Hochrisiko-Systemen unmittelbar nutzen können.

Governance als gemeinsame Aufgabe

Datenqualität ergibt sich nicht in der IT allein. Sie verlangt das Zusammenwirken von Fachbereichen, Datenverantwortlichen und Entwicklungsteams. CDOs verantworten Strategie, Richtlinien und die Abstimmung mit Verantwortlichen, während CIOs Architektur, Werkzeuge und Skalierbarkeit verantworten. Ein Center of Excellence vereinheitlicht Governance, Werkzeuge und bewährte Verfahren über Geschäftseinheiten hinweg und verankert Qualität in jeder Pipeline. Datenqualität sollte dabei als fortlaufender Kennwert behandelt werden, nicht als einmaliger Meilenstein.

Der menschliche Prüfschritt bleibt auch beim Einsatz generativer KI unverzichtbar. In journalistischen Leitlinien und Praxisberichten wird empfohlen, KI-generierte Inhalte grundsätzlich einer menschlichen Verifikation zu unterziehen (Human-in-the-Loop). Zur Verbesserung von Nachvollziehbarkeit und Faktentreue kommen zudem Verfahren wie Retrieval-Augmented Generation (RAG) und teilweise Doppel-LLM-Architekturen zum Einsatz. KI kann darüber hinaus die Pflege von Wissens- und Datenbeständen unterstützen, etwa bei Annotation, Verschlagwortung oder der Identifikation potenzieller Qualitätsprobleme in Datensätzen.

Fazit

Datenqualität und aktives Metadatenmanagement bilden die Vorstufe, ohne die KI-Projekte ihren Zweck verfehlen. Die Daten müssen vielfältig, aktuell, genau, abgesichert, auffindbar und maschinell verarbeitbar sein, und sie müssen über ihren gesamten Lebenszyklus dokumentiert und überprüfbar bleiben. Metadaten entwickeln sich dabei von der Dokumentation zur aktiven Steuerungsebene. Regulatorisch verdichten sich die Anforderungen, technisch verschiebt sich der Engpass von der Modellgröße zur Datengrundlage. Unternehmen, die Qualität früh in ihre Datenprozesse einbetten und Verantwortung über Rollen und Bereiche verteilen, schaffen eine Grundlage, auf der sich KI verlässlich und nachvollziehbar betreiben lässt.

Erfahren Sie mehr über Datenverwaltung