
amnaj - stock.adobe.com
Synthetische Daten: Durchbruch für verantwortungsvolle KI
KI-Anwendungen bergen Chancen und Herausforderungen für die Datennutzung. Die Erzeugung synthetischer Daten kann dabei unterstützen, die Herausforderungen zu meistern.
Der Hype um KI bringt neue Chancen und Herausforderungen für die Nutzung von Daten mit sich. Er macht auch Lücken und Mängel in den Datenbeständen sichtbar – sei es aufgrund von Datenschutzbeschränkungen oder Fragestellungen zu seltenen Ereignissen, für die eine solide Datenbasis fehlt. Abhilfe schaffen kann hier die Erzeugung synthetischer Daten.
Dabei gibt es unterschiedliche Ansätze: Zu den gängigen Methoden gehören die Ziehung von Zufallszahlen bekannter Wahrscheinlichkeitsverteilungen oder die Simulation von Daten, die bestimmten Rahmenparametern und Regeln folgen soll. Ausgehend von einer Normalverteilung lässt sich so die Altersstruktur der Bevölkerung künstlich durch Ziehen von Zahlen aus dieser bekannten Verteilung erzeugen. Diese Methoden greifen jedoch unter Umständen zu kurz – beispielsweise, wenn die Annahmen nicht zu 100 Prozent mit der Wirklichkeit übereinstimmen oder es Abhängigkeiten von anderen Merkmalen gibt (wie dem Geschlecht), die erhalten bleiben sollen.
Moderne Verfahren zur Erzeugung synthetischer Daten sind in der Lage, sowohl die realen Verteilungen der Merkmale sowie deren Beziehungen zueinander zu erlernen. Sie basieren auf spezialisierten neuronalen Netzen oder speziellen Machine-Learning-Verfahren, die zur Disziplin der generativen KI gehören. Mithilfe dieser neuen Verfahren lassen sich auch übergreifend Herausforderungen im Zusammenhang mit KI lösen, dazu gehören unter anderem Voreingenommenheit (biased data) oder Unausgewogenheit (unbalanced data) in den Daten. Zudem bieten synthetische Daten dank ihrer hohen Qualität bessere Voraussetzungen, um Datenschutzvorgaben zu erfüllen. Sie gehören damit zur aktuellen Schlüsseltechnologie für KI-Innovationen.
Datenvolumen allein macht noch keine Analyse
KI produziert einerseits Unmengen an Daten: Bereits 2023 waren es rund 120 Zettabytes – und diese Zahl soll sich bis 2027 mehr als verdoppeln. Andererseits macht der KI-Hype auch Mängel in den Datenbeständen offensichtlich: Schließlich sind immer häufiger spezifische Daten gefragt, die Modelle für intelligente Anwendungen füttern sollen. Das betrifft unter anderem Fragestellungen zu ungewöhnlichen Korrelationen, bei denen oftmals nicht genügend Daten vorliegen, um Wahrscheinlichkeiten zu berechnen – zum Beispiel zwischen Pandemien und psychischer Gesundheit bei Kindern oder zwischen Klimaanomalien und Migration. Hier können synthetisch generierte Daten die Informationsbasis erweitern und somit die Grundlage für präzisere Prognosen schaffen.
Diese Daten haben das Potenzial, die Produktivität zu verbessern, gleichzeitig Kosten zu senken und Innovationen voranzutreiben. Sie kommen überall dort ins Spiel, wo der Zugriff auf Informationen eingeschränkt ist, aufgrund von Datenschutz, Lücken in den Datensätzen oder bei unausgewogenen Gruppengrößen.
USP: Spezifische und seltene Informationen
Die Herausforderung besteht nicht darin, einfach eine besonders große Menge von Daten zu produzieren, sondern genau die Informationen zu generieren, die geeignet sind, Lücken in den vorhandenen Datensätzen zu einer bestimmten Fragestellung statistisch valide zu füllen.
Ein weiteres Einsatzgebiet ist die Nachbildung von sensiblen Daten, wie sie vor allem im Gesundheitswesen, bei Banken, Versicherungen und Behörden vorhanden sind. Die maschinengenerierten Daten funktionieren als Faksimile der Originaldaten, das Muster und Korrelationen beibehält, ohne Rückschlüsse auf Identitäten zuzulassen.
Konkret ergeben sich beispielsweise für eine Bank verschiedenste Anwendungsszenarien für synthetische Daten: Im Bereich Betrugserkennung und Bekämpfung von Finanzkriminalität lassen sich damit robuste Modelle auch für seltene Konstellationen trainieren oder Penetrationstests für das vorhandene Kontrollsystem durchführen, um es dann zu optimieren.
Weitere Anwendungsgebiete für synthetische Daten im Bankensektor sind zum Beispiel die Erstellung seltener Black-Swan-Ereignisse trotz spärlicher Datensätze, das Trainieren von Modellen mit externen Daten zu relativ neuen Entwicklungen wie dem Klimawandel oder präzisere Simulationen von mikro-/makroökonomischen Events und Marktbedingungen. Zudem bieten die künstlich generierten Daten das Potenzial, die Genauigkeit der komplexen Modelle zu verbessern, die für die Kreditrisikobewertung eingesetzt werden.
Synthetische Daten versus Anonymisierung
Anonymisierte Daten, die bereits seit Jahren in sensiblen Bereichen verwendet werden, sind manchmal keine sinnvolle Antwort auf Datenschutzanforderungen, da das Verfahren zeitaufwendig ist und die Ergebnisse nicht unbedingt verwendbar sind.
Schlechte Qualität erschwert die Nutzung anonymisierter Daten für Advanced-Analytics-Aufgaben wie die Erstellung von KI- und Machine-Learning-Modellen oder Dashboards. Synthetische Daten dagegen spiegeln die statistischen Eigenschaften und Korrelationen der Originaldaten. Die Datensätze sind daher enorm nützlich für das Testen und Trainieren präziser prädiktiver Modelle, ohne sensible Informationen maskieren zu müssen.
Testlauf im Real-World-Szenario
SAS und ein Partner stellten in einem Testszenario zur Abwanderungswahrscheinlichkeit von Telekom-Kunden synthetische gegen anonymisierte Daten auf die Probe. Dabei kam heraus, dass synthetische Daten die ursprünglichen Eigenschaften und die Geschäftslogik beibehielten, einschließlich verborgener statistischer Muster, während Anonymisierung darunter liegende Korrelationen zerstörte. Modelle auf Basis von synthetischen Daten lieferten sehr genaue Vorhersagen zur Abwanderungswahrscheinlichkeit, dagegen lieferten mit anonymisierten Daten gefütterte Modelle schlechtere Ergebnisse.
Mit künstlich generierten Daten lassen sich Modelle trainieren und Dateneigenschaften nachvollziehen, ohne den Datenschutz zu kompromittieren, da der Zugriff auf die Originaldaten unterbunden wird. Und last but not least sind die Prozesse zur Erzeugung synthetischer Daten reproduzierbar.
Kleines Assessment zur Generierung von synthetischen Daten
Um das Potenzial von synthetischen Daten voll auszuschöpfen und sie verantwortungsvoll nutzen zu können, sollten Unternehmen vorab diese bewährten Verfahren berücksichtigen:
Anwendungszweck: Das primäre Ziel im Vorfeld zu definieren, ist der erste Schritt, um die richtigen Methoden und Prozesse zu definieren.
Methoden: Ein Ansatz ist die Anwendung von Regeln zur Generierung von Daten nach bekannten Mustern. Sind komplexe Zusammenhänge im Spiel, bieten sich jedoch eher Algorithmen oder KI-basierte Ansätze an.
Qualität und Validierung: Damit synthetische Daten die statistischen Eigenschaften der Originaldaten präzise darstellen, einschließlich der Korrelation zwischen den Merkmalen, sind sie stets mit den Real-World-Informationen abzugleichen – im Hinblick auf die Verteilung sowie auf die Relationen.
Datenschutz und Sicherheit: Techniken wie beispielsweise Differential Privacy, die den Daten während der Trainings- und Generierungsprozesse ein Rauschen hinzufügen, erschweren die Identifizierung von Einzelpersonen. Zudem sollten zuverlässige Sicherheitsmaßnahmen unberechtigten Zugriff verhindern.
Potenzieller Bias: Um Voreingenommenheit zu vermeiden, sollten Daten im Hinblick auf unterrepräsentierte Segmente oder Gruppen analysiert werden. Synthetische Daten können dann zielgerichtet dafür eingesetzt werden, eine ausgewogene Datenverteilung herzustellen.
Integration: Die Verbindung von synthetischen mit realen Daten kann den Datensatz insgesamt aufwerten oder dazu dienen, die Modellgüte zu verbessern. Voraussetzung ist, dass durch die Verknüpfung keine Inkonsistenzen entstehen.
Vielseitig verwendbar im Daten-Business
Für den Einsatz von synthetischen Daten im Business gibt es hauptsächlich vier Szenarien:
- Synthetische strukturierte Daten: Diese Daten repräsentieren Einzelpersonen, Produkte und andere Einheiten sowie deren Aktivitäten oder Merkmale. Typische Anwendungsbereiche sind zum Beispiel Kunden und ihre Kaufgewohnheiten, Patienten und ihre Symptome oder Diagnosen und Therapieansätze.
- Synthetische Bilder: Diese Datentypen sind unerlässlich für das Trainieren von Objekterkennung, Bildklassifizierung und -segmentierung. Die generierten Bilder sind nützlich für die Früherkennung von Krebserkrankungen, Arzneimittelentwicklung und klinische Studien oder für die Instruktion von autonomen Fahrzeugen.
- Synthetischer Text: Diese Daten lassen sich gezielt anpassen, um vielseitige Natural-Language-Processing-Modelle (NLP) für Übersetzungen, Sentiment-Analysen und Textgenerierung im Kontext von Anwendungen wie Betrugserkennung und Stresstests zu erstellen.
- Synthetische Zeitreihendaten (einschließlich Sensordaten): Diese Daten sind nützlich in Radarsystemen, für IoT-Sensorik, Lichtdetektion und Lichtsteuerung. Zudem können sie beim Einsatz in der prädiktiven Wartung und in Systemen für autonome Fahrzeuge Mehrwert liefern, wo mehr Daten die Sicherheit und Zuverlässigkeit erhöhen.
Synthetische Daten mit Verantwortung
Die Generierung synthetischer Daten scheint zwar besser geeignet, was die Wahrung des Datenschutzes angeht, als die Anonymisierung oder andere Maskierungsverfahren, allerdings ist auch hier eine ethische Verwendung keinesfalls selbstverständlich. Denn die Zunahme von synthetischen Daten ist ein zweischneidiges Schwert: Einerseits führt die Tatsache, dass immer mehr Anwender Zugriff auf geteilte Data Vaults haben, zu Demokratisierung der Datennutzung und fördert Innovationen. Andererseits stellt die Öffnung ein Risiko dar, dass sich Bias, Datenschutzverletzungen und die ethisch fragwürdige Nutzung von Informationen potenzieren. Daher muss die Generierung synthetischer Daten mit der Einführung der richtigen Kontroll- und Testmechanismen einhergehen.
In einer globalen SAS Studie unter insgesamt 1.600 Entscheidern zeigt sich diesbezüglich eine ambivalente Haltung: 75 Prozent der Befragten machen sich Sorgen um Datenschutz und -sicherheit, wenn generative KI in ihrem Unternehmen eingesetzt wird. Gleichzeitig zeigen 80 Prozent großes Interesse, synthetische Daten zu nutzen, um Datenherausforderungen im Kontext von GenAI-Initiativen anzugehen.
Um eine verantwortungsvolle Nutzung von KI im Allgemeinen und von synthetischen Daten im Besonderen sicherzustellen, sollten Unternehmen strenge Überprüfungen vornehmen, in der Realität sind sie dafür aber noch nicht optimal aufgestellt. Datenschutz ist nur ein Faktor – dafür gibt es bereits Regelungen, hierzulande die DSGVO, die inzwischen im allgemeinen Bewusstsein der Verbraucher verankert ist. Fairness und Bias sind allerdings weniger einfach zu regulieren und zu kontrollieren.
![]()
„Mit künstlich generierten Daten lassen sich Modelle trainieren und Dateneigenschaften nachvollziehen, ohne den Datenschutz zu kompromittieren, da der Zugriff auf die Originaldaten unterbunden wird.“
Tamara Fischer, SAS
Erforderlich ist daher eine Governance auf Unternehmensebene, solange es keine flächendeckenden staatlichen Vorgaben gibt. Dies spielt insbesondere eine wichtige Rolle, da die Bedeutung synthetischer Daten noch weiter zunimmt: Gartner prognostiziert, dass 75 Prozent der Unternehmen bis 2026 generative KI nutzen werden, um synthetische Kundendaten zu erstellen – 2023 lag dieser Anteil gerade einmal bei fünf Prozent.
Ausgangspunkt für kontrollierte Innovation
Unternehmen stehen vor der Aufgabe, belastbare Rahmenwerke für die Kontrolle und eine klare Kommunikation rund um die Grenzen und sinnvollen Use Cases für synthetische Daten aufzubauen. Richtlinien für deren Kennzeichnung und Identifizierung sind ebenfalls erforderlich, um Missverständnisse und Missbrauch zu vermeiden. Die positive Seite: Mit synthetischen Daten, verantwortungsvoll genutzt, sind Data Scientists in der Lage, auf der Basis von robusteren und zuverlässigeren KI-Modellen Innovation und Transformation voranzutreiben.
Eine integrierte Cloud-native Analytics-Plattform bildet die Grundlage für eine regelkonforme Auswertung von Daten – eine entscheidende Voraussetzung angesichts des enormen Tempos, mit dem sich KI und synthetische Daten verbreiten. Wichtig ist eine umfassende Nachvollziehbarkeit, wie Modelle erstellt werden, bis hin zu den Rohdaten und den KPIs, die für die Bewertung der KI-Analysen eingesetzt werden.
Über die Autorin:
Tamara Fischer, Diplom-Statistikerin, arbeitet seit vielen Jahren als Principal Data Scientist bei SAS. In dieser Rolle hilft und berät sie Kunden, die verschiedenen Herausforderungen entlang des gesamten analytischen Lebenszyklus erfolgreich zu meistern – von der Datenaufbereitung und -exploration über die Modellentwicklung bis hin zum Einsatz des Modells in Produktion.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.