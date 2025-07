Der Hype um KI bringt neue Chancen und Herausforderungen für die Nutzung von Daten mit sich. Er macht auch Lücken und Mängel in den Datenbeständen sichtbar – sei es aufgrund von Datenschutzbeschränkungen oder Fragestellungen zu seltenen Ereignissen, für die eine solide Datenbasis fehlt. Abhilfe schaffen kann hier die Erzeugung synthetischer Daten.

Dabei gibt es unterschiedliche Ansätze: Zu den gängigen Methoden gehören die Ziehung von Zufallszahlen bekannter Wahrscheinlichkeitsverteilungen oder die Simulation von Daten, die bestimmten Rahmenparametern und Regeln folgen soll. Ausgehend von einer Normalverteilung lässt sich so die Altersstruktur der Bevölkerung künstlich durch Ziehen von Zahlen aus dieser bekannten Verteilung erzeugen. Diese Methoden greifen jedoch unter Umständen zu kurz – beispielsweise, wenn die Annahmen nicht zu 100 Prozent mit der Wirklichkeit übereinstimmen oder es Abhängigkeiten von anderen Merkmalen gibt (wie dem Geschlecht), die erhalten bleiben sollen.

Moderne Verfahren zur Erzeugung synthetischer Daten sind in der Lage, sowohl die realen Verteilungen der Merkmale sowie deren Beziehungen zueinander zu erlernen. Sie basieren auf spezialisierten neuronalen Netzen oder speziellen Machine-Learning-Verfahren, die zur Disziplin der generativen KI gehören. Mithilfe dieser neuen Verfahren lassen sich auch übergreifend Herausforderungen im Zusammenhang mit KI lösen, dazu gehören unter anderem Voreingenommenheit (biased data) oder Unausgewogenheit (unbalanced data) in den Daten. Zudem bieten synthetische Daten dank ihrer hohen Qualität bessere Voraussetzungen, um Datenschutzvorgaben zu erfüllen. Sie gehören damit zur aktuellen Schlüsseltechnologie für KI-Innovationen.

KI produziert einerseits Unmengen an Daten: Bereits 2023 waren es rund 120 Zettabytes – und diese Zahl soll sich bis 2027 mehr als verdoppeln. Andererseits macht der KI-Hype auch Mängel in den Datenbeständen offensichtlich: Schließlich sind immer häufiger spezifische Daten gefragt, die Modelle für intelligente Anwendungen füttern sollen. Das betrifft unter anderem Fragestellungen zu ungewöhnlichen Korrelationen, bei denen oftmals nicht genügend Daten vorliegen, um Wahrscheinlichkeiten zu berechnen – zum Beispiel zwischen Pandemien und psychischer Gesundheit bei Kindern oder zwischen Klimaanomalien und Migration. Hier können synthetisch generierte Daten die Informationsbasis erweitern und somit die Grundlage für präzisere Prognosen schaffen.

Testlauf im Real-World-Szenario

SAS und ein Partner stellten in einem Testszenario zur Abwanderungswahrscheinlichkeit von Telekom-Kunden synthetische gegen anonymisierte Daten auf die Probe. Dabei kam heraus, dass synthetische Daten die ursprünglichen Eigenschaften und die Geschäftslogik beibehielten, einschließlich verborgener statistischer Muster, während Anonymisierung darunter liegende Korrelationen zerstörte. Modelle auf Basis von synthetischen Daten lieferten sehr genaue Vorhersagen zur Abwanderungswahrscheinlichkeit, dagegen lieferten mit anonymisierten Daten gefütterte Modelle schlechtere Ergebnisse.

Mit künstlich generierten Daten lassen sich Modelle trainieren und Dateneigenschaften nachvollziehen, ohne den Datenschutz zu kompromittieren, da der Zugriff auf die Originaldaten unterbunden wird. Und last but not least sind die Prozesse zur Erzeugung synthetischer Daten reproduzierbar.