Definition

Data Poisoning (AI Poisoning)

von

Nihad A. Hassan, OSINT

Zuletzt aktualisiert: Juli 27, 2025

Was ist Data Poisoning (AI Poisoning)?

Data Poisoning oder AI Poisoning kann mit Datenvergiftung oder KI-Vergiftung übersetzt werden.

Diese Art der Angriffe sind gezielte Versuche, die Trainingsdaten von Modellen für künstliche Intelligenz (KI) und maschinelles Lernen (ML) zu manipulieren, um deren Verhalten zu verfälschen und verzerrte, voreingenommene oder schädliche Ergebnisse zu erzielen.

Seit der Veröffentlichung von ChatGPT finden KI-Tools immer breitere Anwendung. Viele dieser Systeme sind für ihre ordnungsgemäße Funktion auf ML-Modelle angewiesen. Dies wissen auch Angreifer, die verschiedene Angriffstechniken einsetzen, um über die ML-Modelle in KI-Systeme einzudringen. Eine der größten Bedrohungen für ML-Modelle ist das Data Poisoning.

Data-Poisoning-Angriffe stellen eine erhebliche Gefahr für die Integrität und Zuverlässigkeit von KI- und ML-Systemen dar. Ein erfolgreicher Data-Poisoning-Angriff kann zu unerwünschtem Verhalten, voreingenommenen Ergebnissen oder einem vollständigen Ausfall des Modells führen. Da KI-Systeme in allen Branchen immer mehr Verbreitung finden, ist es von entscheidender Bedeutung, Strategien und Gegenmaßnahmen zu implementieren, um diese Modelle vor böswilliger Datenmanipulation zu schützen.

Die Rolle von Daten beim Modelltraining

Während des Trainings müssen ML-Modelle auf große Datenmengen aus verschiedenen Quellen zugreifen, die als Trainingsdaten bezeichnet werden. Zu den gängigen Quellen für Trainingsdaten gehören:

Das Internet, einschließlich Diskussionsforen, Social-Media-Plattformen, Nachrichtenseiten, Blogs, Unternehmenswebseiten und andere öffentlich zugängliche Online-Inhalte.
Protokolldaten (Log-Einträge) von Geräten des Internets der Dinge (IoT), wie Aufzeichnungen von Überwachungskameras, Videos von Verkehrs- und Überwachungskameras sowie Geolokalisierungsdaten.
Behördliche Datenbanken wie Data.gov, die unter anderem Umwelt- und demografische Informationen enthalten.
Datensätze aus wissenschaftlichen Publikationen und Studien, die ein breites Spektrum von Fachgebieten abdecken, von Biologie und Chemie bis hin zu den Sozialwissenschaften.
Spezialisierte ML-Repositorys, wie das Machine Learning Repository der University of California, Irvine, die einen breiten Zugang zu Daten aus verschiedenen Themenbereichen bieten.
Proprietäre Unternehmensdaten, wie Kundeninteraktionen, Verkaufsinformationen, Produktdaten und Finanztransaktionen.

Ein Data-Poisoning-Angriff erfolgt, wenn Angreifer bösartige oder beschädigte Daten in diese Trainingsdatensätze einschleusen, um das KI-Modell zu ungenauen Ergebnissen zu veranlassen oder seine Gesamtleistung zu beeinträchtigen.

Arten von Data-Poisoning-Angriffen

Böswillige Akteure verwenden eine Vielzahl von Methoden, um Datenvergiftungsangriffe durchzuführen. Zu den gängigsten Ansätzen gehören die folgenden.

Falsche Beschriftung

Bei dieser Art von Angriff beschriftet ein Bedrohungsakteur Teile des Trainingsdatensatzes des KI-Modells absichtlich falsch, sodass das Modell falsche Muster lernt und nach der Bereitstellung ungenaue Ergebnisse liefert. Wenn einem Modell beispielsweise während der Trainingsphase zahlreiche Bilder von Pferden vorgelegt werden, die fälschlicherweise als Autos gekennzeichnet sind, könnte das KI-System nach der Bereitstellung Pferde fälschlicherweise als Autos erkennen.

Dateneinfügung (Data Injection)

Bei einem Dateneinfügungsangriff fügen Angreifer bösartige Datenproben in ML-Trainingsdatensätze ein, um das KI-System dazu zu bringen, sich gemäß den Zielen des Angreifers zu verhalten. Wenn beispielsweise speziell gestaltete Datenproben in die Trainingsdaten eines Bankensystems eingefügt werden, könnte dies zu einer Verzerrung bei der Kreditvergabe zu Ungunsten bestimmter Bevölkerungsgruppen führen.

Datenmanipulation

Bei der Datenmanipulation werden Daten innerhalb des Trainingssatzes eines ML-Modells verändert, um das Modell dazu zu bringen, Daten falsch zu klassifizieren oder auf bestimmte Eingaben in einer vordefinierten böswilligen Weise zu reagieren. Zu den Techniken zur Manipulation von Trainingsdaten gehören:

Hinzufügen falscher Daten.
Entfernen korrekter Daten.
Einschleusen feindlicher Muster.

Das Endziel eines Datenmanipulationsangriffs ist es, ML-Sicherheitslücken auszunutzen, um verzerrte oder schädliche Ergebnisse zu erzielen.

Hintertüren

Angreifer können auch eine versteckte Schwachstelle – eine sogenannte Hintertür (Backdoor) – in den Trainingsdaten oder im ML-Algorithmus selbst einbauen. Die Hintertür wird dann automatisch ausgelöst, wenn bestimmte Bedingungen erfüllt sind. Bei Hintertüren in KI-Modellen bedeutet dies in der Regel, dass das Modell böswillige Ergebnisse liefert, die den Absichten des Angreifers entsprechen, wenn dieser bestimmte Eingaben macht.

Backdoor-Angriffe stellen ein ernstes Risiko für KI- und ML-Systeme dar, da ein betroffenes Modell nach der Bereitstellung weiterhin normal zu funktionieren scheint und möglicherweise keine Anzeichen einer Kompromittierung zeigt. Beispielsweise könnte ein autonomes Fahrzeugsystem, das ein kompromittiertes ML-Modell mit einer versteckten Backdoor enthält, so manipuliert werden, dass es unter bestimmten Bedingungen Stoppschilder ignoriert, was zu Unfällen und der Beschädigung von Forschungsdaten führen kann.

Angriffe auf die ML-Lieferkette

ML-Modelle sind häufig auf Datenquellen und Tools von Drittanbietern angewiesen. Diese externen Komponenten können Sicherheitslücken wie Hintertüren in das KI-System einschleusen. Angriffe auf die Lieferkette sind nicht auf ML-Trainingsmodelle beschränkt, sondern können in jeder Phase des Entwicklungszyklus eines ML-Systems auftreten.

Insider-Angriffe

Insider-Angriffe werden von Personen innerhalb einer Organisation – beispielsweise Mitarbeitern oder Auftragnehmern – verübt, die ihre autorisierten Zugriffsrechte auf die Trainingsdaten, Algorithmen und physische Infrastruktur des ML-Modells missbrauchen. Diese Angreifer sind in der Lage, die Daten und die Architektur des Modells auf verschiedene Weise direkt zu manipulieren, um dessen Leistung zu beeinträchtigen oder dessen Ergebnisse zu verfälschen. Insider-Angriffe sind besonders gefährlich und schwer abzuwehren, da interne Akteure externe Sicherheitskontrollen umgehen können, die einen externen Hacker stoppen würden.

Direkte vs. indirekte Data-Poisoning-Angriffe

Datenvergiftungsangriffe lassen sich anhand ihrer Ziele grob in zwei Kategorien einteilen: direkte und indirekte Angriffe.

Direkte Angriffe

Direkte Datenvergiftungsangriffe, auch als gezielte Angriffe bezeichnet, treten auf, wenn Bedrohungsakteure das ML-Modell so manipulieren, dass es bei einer bestimmten Zieleingabe auf eine bestimmte Weise reagiert, während die Gesamtleistung des Modells davon unberührt bleibt. Beispielsweise könnten Bedrohungsakteure sorgfältig ausgearbeitete Samples in die Trainingsdaten eines Malware-Erkennungs-Tools einschleusen, um das ML-System dazu zu bringen, bösartige Dateien fälschlicherweise als harmlos einzustufen.

Indirekte Angriffe

Im Gegensatz zu direkten Angriffen sind indirekte Angriffe nicht zielgerichtet und zielen darauf ab, die Gesamtleistung des ML-Modells zu beeinträchtigen, nicht nur eine bestimmte Funktion oder Eigenschaft. Beispielsweise könnten Angreifer zufälliges Rauschen in die Trainingsdaten eines Bildklassifizierungs-Tools einschleusen, indem sie zufällige Pixel in eine Teilmenge der Bilder einfügen, mit denen das Modell trainiert. Das Hinzufügen dieser Art von Rauschen beeinträchtigt die Fähigkeit des Modells, aus seinen Trainingsdaten effizient zu generalisieren, was die Gesamtleistung des ML-Modells verschlechtert und es in realen Umgebungen weniger zuverlässig macht.

Tools zur Vergiftung von KI-Daten

Mit zunehmender Reife des Bereichs der KI-Vergiftung tauchen nun automatisierte Tools auf, die solche Angriffe auf ML-Modelle erleichtern sollen. Das KI-Vergiftungs-Tool Nightshade beispielsweise, das von einem Team der University of Chicago entwickelt wurde, ermöglicht es Digitalkünstlern, die Pixel ihrer Bilder vor dem Hochladen ins Internet subtil zu verändern. Wenn KI-Unternehmen Online-Inhalte scrapen, um Bildgenerierungsmodelle wie Dall-E und Midjourney zu trainieren, können die veränderten Bilder das Modelltraining stören und möglicherweise das Modell vollständig zerstören oder zu unvorhersehbarem Verhalten führen. Obwohl das Tool zu Verteidigungszwecken entwickelt wurde – um die Urheberrechte von Künstlern durch die Verhinderung der unbefugten Verwendung ihrer Werke zu schützen –, könnte es auch für böswillige Aktivitäten missbraucht werden.

Strategien zur Abwehr von Datenvergiftungsangriffen

Um Datenvergiftungsangriffe wirksam abzuwehren, können Unternehmen eine mehrschichtige Verteidigungsstrategie implementieren, die sowohl bewährte Sicherheitsverfahren als auch die Durchsetzung von Zugriffskontrollen umfasst. Zu den spezifischen Techniken zur Abwehr von Datenvergiftungen gehören die folgenden:

Validierung der Trainingsdaten. Vor Beginn des Modelltrainings sollten alle Daten validiert werden, um verdächtige oder potenziell bösartige Datenpunkte zu erkennen und herauszufiltern. Dies trägt dazu bei, das Risiko zu minimieren, dass Angreifer solche Daten einfügen und später ausnutzen.
Kontinuierliche Überwachung und Audits. Wie alle Informationssysteme benötigen auch KI-Systeme strenge Zugriffskontrollen, um unbefugten Benutzern den Zugriff zu verweigern. Wenden Sie das Prinzip der geringsten Privilegien an und richten Sie logische und physische Zugriffskontrollen ein, um Risiken durch unbefugten Zugriff zu minimieren. Die kontinuierliche Überwachung und Prüfung sollte sich auch auf die Leistung, die Ergebnisse und das Verhalten des Modells konzentrieren, um potenzielle Anzeichen für Datenvergiftung zu erkennen.
Training mit gegnerischen Beispielen. Die Einführung gegnerischer Beispiele während der Trainingsphase des Modells ist eine wichtige proaktive Sicherheitsmaßnahme, um viele Datenvergiftungsangriffe zu verhindern. Dadurch kann das ML-Modell solche Eingaben korrekt klassifizieren und als unangemessen kennzeichnen.
Vielfalt der Datenquellen. Durch die Verwendung mehrerer Datenquellen kann ein Unternehmen die Trainingsdatensätze seines ML-Modells diversifizieren und so die Effizienz vieler Datenvergiftungsangriffe erheblich verringern.
Daten- und Zugriffsverfolgung. Die Aufzeichnung aller Trainingsdatenquellen ist unerlässlich, um viele Vergiftungsangriffe zu stoppen. Erwägen Sie außerdem, alle Benutzer und Systeme, die Zugriff auf das Modell haben, sowie deren jeweilige Aktivitäten zu protokollieren, um potenzielle Bedrohungsakteure zu identifizieren.

Data Poisoning in der Kurzübersicht

Data Poisoning (auch AI Poisoning genannt) bezeichnet gezielte Angriffe auf Trainingsdaten von KI- und Machine-Learning-Modellen. Dabei schleusen Angreifer manipulierte oder fehlerhafte Daten in das Trainingsmaterial ein, um die Leistung oder das Verhalten der KI zu beeinträchtigen. Mögliche Folgen sind fehlerhafte Entscheidungen, verzerrte Ergebnisse oder Sicherheitsrisiken.

Typische Angriffsformen:

Falsche Etikettierung: Daten werden absichtlich falsch beschriftet (z. B. Pferde als Autos).
Dateninjektion: Einschleusen manipulativ gestalteter Datensätze.
Datenmanipulation: Veränderung oder Entfernung relevanter Trainingsdaten.
Backdoor-Angriffe: Versteckte Schwachstellen im Modell, die bei bestimmten Eingaben aktiviert werden.
Insider-Angriffe: Manipulation durch autorisierte Personen innerhalb einer Organisation.
Supply-Chain-Angriffe: Einschleusen von Schwachstellen über Drittanbieter oder externe Tools.

Schutzmaßnahmen:

Prüfung und Validierung von Trainingsdaten
Adversarial Training mit bösartigen Beispielen
Zugriffskontrollen und Nutzerüberwachung
Einsatz vielfältiger und vertrauenswürdiger Datenquellen

Data Poisoning ist ein wachsendes Sicherheitsrisiko im Zeitalter weit verbreiteter KI-Anwendungen; präventive Maßnahmen sind daher entscheidend.

Data Poisoning (AI Poisoning)

Was ist Data Poisoning (AI Poisoning)?

Die Rolle von Daten beim Modelltraining