EU AI Act: Bias mit synthetischen Daten reduzieren
EU AI Act: Bias mit synthetischen Daten reduzieren
Niklas Hanitsch
Volljurist und Compliance-Experte
January 5, 2026
5 Minuten
Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.
Key Takeaways
Synthetische Daten ermöglichen faire KI, auch wenn reale Daten verzerrt sind.
Der EU AI Act macht ausgewogene und repräsentative Trainingsdaten zur Pflicht.
Künstlich erzeugte Daten lösen gleichzeitig Bias- und Datenschutzprobleme.
Künstlich erzeugte Daten lösen gleichzeitig Bias- und Datenschutzprobleme.
Stellen Sie sich vor, Sie entwickeln eine KI für das Gesundheitswesen. Ihr Modell soll Hautveränderungen analysieren, um Krebs frühzeitig zu erkennen. Sie haben Tausende von Bildern gesammelt, alles läuft gut – bis Ihnen auffällt: 90 % Ihrer Daten stammen von Patienten mit heller Hautfarbe.
Das Ergebnis? Ihr Modell wird bei Patienten mit dunklerer Hautfarbe unzuverlässig sein. In der Fachsprache nennt man das „Bias“ (Verzerrung). Unter dem kommenden EU AI Act ist das nicht nur ein technisches Ärgernis, sondern ein Compliance-Risiko, das hohe Strafen nach sich ziehen kann.
Hier stehen viele Unternehmen vor einem Dilemma: Reale Daten sind oft "schmutzig", voreingenommen oder aus Datenschutzgründen (DSGVO) kaum nutzbar. Die Lösung klingt fast zu gut, um wahr zu sein: Daten, die gar nicht echt sind, aber so tun als ob. Willkommen in der Welt der synthetischen Daten.
In diesem Artikel erfahren Sie, wie Sie synthetische Daten nicht nur als Notlösung, sondern als strategischen Hebel für bessere Modelle und rechtssichere Compliance nutzen.
Was sind synthetische Daten eigentlich?
Lassen Sie uns mit einem Missverständnis aufräumen: Synthetische Daten sind keine „Fake News“ für Computer. Es handelt sich um künstlich generierte Informationen, die die statistischen Eigenschaften echter Daten perfekt imitieren, ohne dabei sensible Informationen echter Personen zu enthalten.
Denken Sie an einen Flugsimulator. Ein Pilot lernt dort das Fliegen in einer Umgebung, die sich zu 100 % real anfühlt, aber in der niemand verletzt wird, wenn etwas schiefgeht. Synthetische Daten sind der Flugsimulator für Ihre KI.
Warum echte Daten oft nicht genügen
Der EU AI Act (insbesondere Artikel 10) stellt strenge Anforderungen an Hochrisiko-KI-Systeme. Die Daten müssen „relevant, repräsentativ, fehlerfrei und vollständig“ sein. Reale Datensätze scheitern oft an drei Hürden:
Datenschutz (Privacy): Echte Kundendaten dürfen oft gar nicht zum Training verwendet werden.
Seltenheit (Scarcity): Kritische Ereignisse (z. B. ein seltener Unfall oder Betrugsfall) kommen in der Realität zu selten vor, um eine KI robust zu trainieren.
Genau hier greifen synthetische Daten ein. Sie ermöglichen es, die KI-Datenqualität gezielt zu steuern, statt sich auf den Zufall der Realität zu verlassen.
Spezifische Generierungsmethoden und ihre Rolle
Es reicht nicht, einfach „mehr Daten“ zu generieren. Um Bias aktiv zu mindern und die Anforderungen des AI Acts zu erfüllen, müssen wir die richtige Methode für das richtige Problem wählen. Schauen wir uns die Technik dahinter an – verständlich erklärt.
1. Statistische Methoden (Oversampling)
Dies ist die einfachste Form. Wenn Sie 100 Datensätze von Männern und nur 10 von Frauen haben, analysiert der Computer die statistische Verteilung der Frauen-Gruppe und generiert darauf basierend neue, ähnliche Datensätze.
Beitrag zur Compliance: Hilft, einfache Ungleichgewichte in tabellarischen Daten schnell zu korrigieren.
2. Generative Adversarial Networks (GANs) – Der Fälscher und der Polizist
GANs sind der Goldstandard für realistische Bilder und komplexe Daten. Stellen Sie sich zwei KIs vor, die gegeneinander spielen:
Der Generator (Fälscher) versucht, künstliche Daten zu erstellen.
Der Diskriminator (Polizist) versucht zu erkennen, ob die Daten echt oder künstlich sind. Über Millionen von Runden wird der Fälscher so gut, dass der Polizist keinen Unterschied mehr erkennt.
Beitrag zur Bias-Minderung: GANs können gezielt trainiert werden, um unterrepräsentierte Merkmale zu erzeugen. Sie können beispielsweise Gesichter generieren, die in Ihren echten Daten fehlen, um die Diversität zu erhöhen.
3. Variational Autoencoders (VAEs) – Die Entdecker
VAEs komprimieren Daten auf ihre wesentlichen Merkmale und rekonstruieren sie dann wieder. Dabei lernen sie die zugrundeliegende Struktur der Daten extrem gut.
Beitrag zur Datensatz-Erweiterung: VAEs sind hervorragend geeignet, um Variationen zu erzeugen. Sie können helfen, „Edge Cases“ (Grenzfälle) zu simulieren, die in der Realität selten vorkommen, aber für die Sicherheit einer Hochrisiko-KI entscheidend sind.
4. Agentenbasierte Modellierung (Simulationen)
Hier werden keine Daten aus bestehenden Daten abgeleitet, sondern eine ganze Welt simuliert (z. B. ein virtueller Straßenverkehr für autonomes Fahren).
Beitrag zur Qualität: Dies erlaubt die Erzeugung von Szenarien, die in der Realität zu gefährlich wären, um sie zu testen.
KI Act Konformität in der Praxis: Bias bekämpfen
Der EU AI Act verlangt von Anbietern, dass sie KI-Datenqualität verbessern, bevor das Modell auf den Markt kommt. Artikel 10 fordert explizit Maßnahmen zur Erkennung und Korrektur von Verzerrungen.
Wie sieht das konkret aus?
Szenario: Kreditvergabe (Financial Services)
Ein historischer Datensatz zeigt, dass Bewohner bestimmter Postleitzahlen seltener Kredite bekamen. Eine KI würde diesen Bias lernen und Bewohner dieser Gegenden diskriminieren.
Lösung: Man nutzt synthetische Daten, um die Merkmale „Wohnort“ und „Kreditwürdigkeit“ zu entkoppeln. Man generiert synthetische Profile von kreditwürdigen Personen in diesen Postleitzahlen.
Ergebnis: Der Datensatz ist statistisch bereinigt („Debiasing“). Das Modell lernt nun allein basierend auf finanzrelevanten Fakten, nicht aufgrund des Wohnorts.
Szenario: Datenschutz und DSGVO
Oft scheitert die Compliance nicht am Willen, sondern am Gesetz. Um Bias zu testen, bräuchten Sie oft sensible Daten (Ethnie, Religion), die Sie laut DSGVO gar nicht verarbeiten dürfen.
Lösung: Synthetische Daten können so generiert werden, dass sie völlig anonym sind (kein Personenbezug), aber die statistischen Zusammenhänge für den Bias-Test behalten. Sie können also testen, ob Ihr Modell fair ist, ohne die Privatsphäre echter Menschen zu verletzen. Dies ist ein entscheidender Vorteil, wenn Sie EU AI Act Compliance Software oder Prozesse implementieren.
Herausforderungen und Validierung
Synthetische Daten sind mächtig, aber kein Allheilmittel. Es gibt Risiken, die Sie kennen müssen:
Model Collapse: Wenn man KIs nur mit KI-Daten trainiert, kann die Qualität über Generationen hinweg degenerieren. Es braucht immer einen Anteil an „Ground Truth“ (echten Daten).
Versteckte Biases: Wenn das Generierungs-Modell (z. B. das GAN) selbst auf voreingenommenen Daten trainiert wurde, kann es den Bias sogar verstärken.
Validierung: Sie müssen beweisen können, dass Ihre synthetischen Daten wirklich repräsentativ sind.
Für eine rechtssichere Umsetzung benötigen Unternehmen daher nicht nur Datenwissenschaftler, sondern auch robuste Prozesse für Digital Compliance, die dokumentieren, wie die Daten entstanden sind und wie sie validiert wurden.
Fazit: Von der Pflicht zur Kür
Der Einsatz von synthetischen Daten ist weit mehr als ein technischer Trick. Er ist eine strategische Antwort auf die zwei größten Herausforderungen der modernen KI-Entwicklung: Datenknappheit und Regulierung.
Indem Sie Datensätze künstlich erweitern und ausbalancieren, schlagen Sie zwei Fliegen mit einer Klappe: Sie bauen leistungsfähigere, robustere Modelle und erfüllen gleichzeitig die strengen Anforderungen des EU AI Acts an Datenqualität und Fairness.
Der Weg zur Compliance muss nicht steinig sein. Beginnen Sie damit, Ihre Datenstrategie nicht nur aus der Perspektive des "Sammelns", sondern aus der Perspektive des "Generierens" zu betrachten. Wer heute lernt, Datenlücken synthetisch zu schließen, wird morgen die Nase vorn haben – technologisch und rechtlich.
FAQ: Häufige Fragen zu synthetischen Daten und dem AI Act
Sind synthetische Daten unter dem EU AI Act erlaubt?
Ja, absolut. Der AI Act ermutigt indirekt sogar dazu, insbesondere wenn es darum geht, Verzerrungen zu korrigieren oder Datenschutzanforderungen zu erfüllen, die mit echten Daten nicht vereinbar wären.
Verlieren synthetische Daten an Genauigkeit im Vergleich zu echten Daten?
Nicht zwangsläufig. Gut generierte synthetische Daten können die Performance eines KI-Modells sogar steigern, da sie Rauschen reduzieren und fehlende Randbereiche (Edge Cases) auffüllen. Es ist ein Trade-off zwischen „Privacy“ und „Utility“, der gesteuert werden kann.
Wie beweise ich dem Auditor, dass meine synthetischen Daten gut sind?
Dokumentation ist alles. Sie müssen den Generierungsprozess, die verwendeten Methoden (z. B. GANs) und die Qualitätsmetriken (Vergleich der statistischen Verteilung Original vs. Synthetisch) offenlegen. Ein integriertes AI Act Managementsystem hilft hier enorm.
Kann ich synthetische Daten nutzen, um sensible DSGVO-Daten zu ersetzen?
Ja. Wenn der Prozess der Synthetisierung sicherstellt, dass kein Rückschluss auf einzelne natürliche Personen möglich ist, gelten diese Daten nicht mehr als personenbezogen im Sinne der DSGVO. Das befreit Sie von vielen strengen Verarbeitungsgrenzen.
Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.
Über SECJUR
SECJUR steht für eine Welt, in der Unternehmen immer compliant sind, aber nie an Compliance denken müssen. Mit dem Digital Compliance Office automatisieren Unternehmen aufwändige Arbeitsschritte und erlangen Compliance-Standards wie DSGVO, ISO 27001 oder TISAX® bis zu 50% schneller.
Compliance, completed
Automatisieren Sie Ihre Compliance Prozesse mit dem Digital Compliance Office
Ein Cybervorfall ist überstanden, doch mit NIS2 beginnt jetzt die entscheidende Phase: die Post-Incident-Analyse. Erfahren Sie, wie Sie Ursachen systematisch aufdecken, Maßnahmen gezielt ableiten und gesetzliche Dokumentationspflichten erfüllen. Dieser Leitfaden zeigt praxisnah, wie Sie aus einem Sicherheitsvorfall nachhaltige Resilienz, bessere Prozesse und echte NIS2-Compliance schaffen.
Whistleblowing wird im EU AI Act zu einem zentralen Schutzinstrument für faire und sichere KI. Dieser Leitfaden zeigt, wie Mitarbeitende Verstöße gegen Hochrisiko- und verbotene KI-Systeme sicher melden können, welche internen und externen Meldewege bestehen und welche rechtlichen Schutzmechanismen greifen. Erfahren Sie, wie der AI Act, das Hinweisgeberschutzgesetz und neue EU-Meldestellen zusammenwirken, um Diskriminierung, Manipulation und Sicherheitsrisiken in KI-Systemen frühzeitig zu stoppen – und warum Whistleblower damit zu einem entscheidenden Faktor für vertrauenswürdige KI werden.
Non-konforme Lieferanten sind eines der größten Risiken für Ihre NIS2-Compliance. Dieser Leitfaden zeigt praxisnah, wie Sie bei Sicherheitsmängeln in der Lieferkette systematisch eskalieren, rechtssicher handeln und Ihre Haftungsrisiken minimieren. Erfahren Sie, wie Sie mit klaren Prozessen, Fristen und vertraglichen Maßnahmen Ihre digitale Lieferkette nachhaltig absichern.