Beitrag teilen
HOME
/
blog
/
EU AI Act: Bias mit synthetischen Daten reduzieren

EU AI Act: Bias mit synthetischen Daten reduzieren

Niklas Hanitsch

Volljurist und Compliance-Experte

January 5, 2026

5 Minuten

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Key Takeaways

Synthetische Daten ermöglichen faire KI, auch wenn reale Daten verzerrt sind.

Der EU AI Act macht ausgewogene und repräsentative Trainingsdaten zur Pflicht.

Künstlich erzeugte Daten lösen gleichzeitig Bias- und Datenschutzprobleme.

Künstlich erzeugte Daten lösen gleichzeitig Bias- und Datenschutzprobleme.

Stellen Sie sich vor, Sie entwickeln eine KI für das Gesundheitswesen. Ihr Modell soll Hautveränderungen analysieren, um Krebs frühzeitig zu erkennen. Sie haben Tausende von Bildern gesammelt, alles läuft gut – bis Ihnen auffällt: 90 % Ihrer Daten stammen von Patienten mit heller Hautfarbe.

Das Ergebnis? Ihr Modell wird bei Patienten mit dunklerer Hautfarbe unzuverlässig sein. In der Fachsprache nennt man das „Bias“ (Verzerrung). Unter dem kommenden EU AI Act ist das nicht nur ein technisches Ärgernis, sondern ein Compliance-Risiko, das hohe Strafen nach sich ziehen kann.

Hier stehen viele Unternehmen vor einem Dilemma: Reale Daten sind oft "schmutzig", voreingenommen oder aus Datenschutzgründen (DSGVO) kaum nutzbar. Die Lösung klingt fast zu gut, um wahr zu sein: Daten, die gar nicht echt sind, aber so tun als ob. Willkommen in der Welt der synthetischen Daten.

In diesem Artikel erfahren Sie, wie Sie synthetische Daten nicht nur als Notlösung, sondern als strategischen Hebel für bessere Modelle und rechtssichere Compliance nutzen.

Was sind synthetische Daten eigentlich?

Lassen Sie uns mit einem Missverständnis aufräumen: Synthetische Daten sind keine „Fake News“ für Computer. Es handelt sich um künstlich generierte Informationen, die die statistischen Eigenschaften echter Daten perfekt imitieren, ohne dabei sensible Informationen echter Personen zu enthalten.

Denken Sie an einen Flugsimulator. Ein Pilot lernt dort das Fliegen in einer Umgebung, die sich zu 100 % real anfühlt, aber in der niemand verletzt wird, wenn etwas schiefgeht. Synthetische Daten sind der Flugsimulator für Ihre KI.

Warum echte Daten oft nicht genügen

Der EU AI Act (insbesondere Artikel 10) stellt strenge Anforderungen an Hochrisiko-KI-Systeme. Die Daten müssen „relevant, repräsentativ, fehlerfrei und vollständig“ sein. Reale Datensätze scheitern oft an drei Hürden:

  1. Datenschutz (Privacy): Echte Kundendaten dürfen oft gar nicht zum Training verwendet werden.
  2. Seltenheit (Scarcity): Kritische Ereignisse (z. B. ein seltener Unfall oder Betrugsfall) kommen in der Realität zu selten vor, um eine KI robust zu trainieren.
  3. Bias (Verzerrung): Historische Daten spiegeln historische Ungerechtigkeiten wider (wie in unserem Hautkrebs-Beispiel).

Vergleich von Original- versus synthetischen Daten zeigt, wie synthetische Daten Datenlücken füllen und für ausgewogenere KI-Modelle sorgen können, indem sie weniger repräsentierte Gruppen verstärken.

Genau hier greifen synthetische Daten ein. Sie ermöglichen es, die KI-Datenqualität gezielt zu steuern, statt sich auf den Zufall der Realität zu verlassen.

Spezifische Generierungsmethoden und ihre Rolle

Es reicht nicht, einfach „mehr Daten“ zu generieren. Um Bias aktiv zu mindern und die Anforderungen des AI Acts zu erfüllen, müssen wir die richtige Methode für das richtige Problem wählen. Schauen wir uns die Technik dahinter an – verständlich erklärt.

1. Statistische Methoden (Oversampling)

Dies ist die einfachste Form. Wenn Sie 100 Datensätze von Männern und nur 10 von Frauen haben, analysiert der Computer die statistische Verteilung der Frauen-Gruppe und generiert darauf basierend neue, ähnliche Datensätze.

  • Beitrag zur Compliance: Hilft, einfache Ungleichgewichte in tabellarischen Daten schnell zu korrigieren.

2. Generative Adversarial Networks (GANs) – Der Fälscher und der Polizist

GANs sind der Goldstandard für realistische Bilder und komplexe Daten. Stellen Sie sich zwei KIs vor, die gegeneinander spielen:

  • Der Generator (Fälscher) versucht, künstliche Daten zu erstellen.
  • Der Diskriminator (Polizist) versucht zu erkennen, ob die Daten echt oder künstlich sind. Über Millionen von Runden wird der Fälscher so gut, dass der Polizist keinen Unterschied mehr erkennt.
  • Beitrag zur Bias-Minderung: GANs können gezielt trainiert werden, um unterrepräsentierte Merkmale zu erzeugen. Sie können beispielsweise Gesichter generieren, die in Ihren echten Daten fehlen, um die Diversität zu erhöhen.

3. Variational Autoencoders (VAEs) – Die Entdecker

VAEs komprimieren Daten auf ihre wesentlichen Merkmale und rekonstruieren sie dann wieder. Dabei lernen sie die zugrundeliegende Struktur der Daten extrem gut.

  • Beitrag zur Datensatz-Erweiterung: VAEs sind hervorragend geeignet, um Variationen zu erzeugen. Sie können helfen, „Edge Cases“ (Grenzfälle) zu simulieren, die in der Realität selten vorkommen, aber für die Sicherheit einer Hochrisiko-KI entscheidend sind.

4. Agentenbasierte Modellierung (Simulationen)

Hier werden keine Daten aus bestehenden Daten abgeleitet, sondern eine ganze Welt simuliert (z. B. ein virtueller Straßenverkehr für autonomes Fahren).

  • Beitrag zur Qualität: Dies erlaubt die Erzeugung von Szenarien, die in der Realität zu gefährlich wären, um sie zu testen.

Der Prozess der synthetischen Datengenerierung und Bias-Minderung in sechs klaren Schritten zeigt, wie technische und rechtliche Anforderungen kombinieren werden, um KI Act konforme Modelle zu erstellen.

KI Act Konformität in der Praxis: Bias bekämpfen

Der EU AI Act verlangt von Anbietern, dass sie KI-Datenqualität verbessern, bevor das Modell auf den Markt kommt. Artikel 10 fordert explizit Maßnahmen zur Erkennung und Korrektur von Verzerrungen.

Wie sieht das konkret aus?

Szenario: Kreditvergabe (Financial Services)

Ein historischer Datensatz zeigt, dass Bewohner bestimmter Postleitzahlen seltener Kredite bekamen. Eine KI würde diesen Bias lernen und Bewohner dieser Gegenden diskriminieren.

  • Lösung: Man nutzt synthetische Daten, um die Merkmale „Wohnort“ und „Kreditwürdigkeit“ zu entkoppeln. Man generiert synthetische Profile von kreditwürdigen Personen in diesen Postleitzahlen.
  • Ergebnis: Der Datensatz ist statistisch bereinigt („Debiasing“). Das Modell lernt nun allein basierend auf finanzrelevanten Fakten, nicht aufgrund des Wohnorts.

Szenario: Datenschutz und DSGVO

Oft scheitert die Compliance nicht am Willen, sondern am Gesetz. Um Bias zu testen, bräuchten Sie oft sensible Daten (Ethnie, Religion), die Sie laut DSGVO gar nicht verarbeiten dürfen.

  • Lösung: Synthetische Daten können so generiert werden, dass sie völlig anonym sind (kein Personenbezug), aber die statistischen Zusammenhänge für den Bias-Test behalten. Sie können also testen, ob Ihr Modell fair ist, ohne die Privatsphäre echter Menschen zu verletzen. Dies ist ein entscheidender Vorteil, wenn Sie EU AI Act Compliance Software oder Prozesse implementieren.

Die Matrix zeigt auf einen Blick, welche synthetischen Daten Generierungsmethoden am besten geeignet sind, um spezifische Anforderungen des KI Acts zu erfüllen und dabei Bias zu reduzieren sowie Datenqualität sicherzustellen.

Herausforderungen und Validierung

Synthetische Daten sind mächtig, aber kein Allheilmittel. Es gibt Risiken, die Sie kennen müssen:

  1. Model Collapse: Wenn man KIs nur mit KI-Daten trainiert, kann die Qualität über Generationen hinweg degenerieren. Es braucht immer einen Anteil an „Ground Truth“ (echten Daten).
  2. Versteckte Biases: Wenn das Generierungs-Modell (z. B. das GAN) selbst auf voreingenommenen Daten trainiert wurde, kann es den Bias sogar verstärken.
  3. Validierung: Sie müssen beweisen können, dass Ihre synthetischen Daten wirklich repräsentativ sind.

Für eine rechtssichere Umsetzung benötigen Unternehmen daher nicht nur Datenwissenschaftler, sondern auch robuste Prozesse für Digital Compliance, die dokumentieren, wie die Daten entstanden sind und wie sie validiert wurden.

Fazit: Von der Pflicht zur Kür

Der Einsatz von synthetischen Daten ist weit mehr als ein technischer Trick. Er ist eine strategische Antwort auf die zwei größten Herausforderungen der modernen KI-Entwicklung: Datenknappheit und Regulierung.

Indem Sie Datensätze künstlich erweitern und ausbalancieren, schlagen Sie zwei Fliegen mit einer Klappe: Sie bauen leistungsfähigere, robustere Modelle und erfüllen gleichzeitig die strengen Anforderungen des EU AI Acts an Datenqualität und Fairness.

Der Weg zur Compliance muss nicht steinig sein. Beginnen Sie damit, Ihre Datenstrategie nicht nur aus der Perspektive des "Sammelns", sondern aus der Perspektive des "Generierens" zu betrachten. Wer heute lernt, Datenlücken synthetisch zu schließen, wird morgen die Nase vorn haben – technologisch und rechtlich.

FAQ: Häufige Fragen zu synthetischen Daten und dem AI Act

Sind synthetische Daten unter dem EU AI Act erlaubt?

Ja, absolut. Der AI Act ermutigt indirekt sogar dazu, insbesondere wenn es darum geht, Verzerrungen zu korrigieren oder Datenschutzanforderungen zu erfüllen, die mit echten Daten nicht vereinbar wären.

Verlieren synthetische Daten an Genauigkeit im Vergleich zu echten Daten?

Nicht zwangsläufig. Gut generierte synthetische Daten können die Performance eines KI-Modells sogar steigern, da sie Rauschen reduzieren und fehlende Randbereiche (Edge Cases) auffüllen. Es ist ein Trade-off zwischen „Privacy“ und „Utility“, der gesteuert werden kann.

Wie beweise ich dem Auditor, dass meine synthetischen Daten gut sind?

Dokumentation ist alles. Sie müssen den Generierungsprozess, die verwendeten Methoden (z. B. GANs) und die Qualitätsmetriken (Vergleich der statistischen Verteilung Original vs. Synthetisch) offenlegen. Ein integriertes AI Act Managementsystem hilft hier enorm.

Kann ich synthetische Daten nutzen, um sensible DSGVO-Daten zu ersetzen?

Ja. Wenn der Prozess der Synthetisierung sicherstellt, dass kein Rückschluss auf einzelne natürliche Personen möglich ist, gelten diese Daten nicht mehr als personenbezogen im Sinne der DSGVO. Das befreit Sie von vielen strengen Verarbeitungsgrenzen.

Niklas Hanitsch

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Über SECJUR

SECJUR steht für eine Welt, in der Unternehmen immer compliant sind, aber nie an Compliance denken müssen. Mit dem Digital Compliance Office automatisieren Unternehmen aufwändige Arbeitsschritte und erlangen Compliance-Standards wie DSGVO, ISO 27001 oder TISAX® bis zu 50% schneller.

Compliance, completed

Automatisieren Sie Ihre Compliance Prozesse mit dem Digital Compliance Office

Mehr erfahren

Frequently asked questions

Everything you need to know about the product and billing.

Weiterlesen

November 21, 2025
5 Minuten
ISO 27001 A.5.7: Cyber Threat Intelligence (CTI) effektiv nutzen

Viele Unternehmen führen Risikobewertungen noch statisch durch, doch die ISO 27001:2022 macht mit A.5.7 klar: Ohne aktuelle Threat Intelligence bleibt jedes ISMS blind. Erfahren Sie, wie Sie generische Risiken durch konkrete, reale Bedrohungen ersetzen, Ihr Risikomanagement dynamisch weiterentwickeln und Cyberangriffe proaktiv abwehren. Dieser Leitfaden zeigt praxisnah, wie CTI Ihr Sicherheitsniveau messbar erhöht und Ihr ISMS von reaktiv zu vorausschauend transformiert.

Lesen
November 11, 2025
6 Minuten
NIS2: Leitfaden für Meldepflichten und Incident Response

Viele Unternehmen wissen, dass NIS2 kommt, doch die Umsetzung wirksamer Incident-Response-Prozesse bereitet oft Unsicherheit. Dieser Leitfaden zeigt, wie Sie Meldepflichten rechtssicher erfüllen, ein handlungsfähiges Response-Team aufbauen und im Ernstfall schnell und strukturiert reagieren. Erfahren Sie, wie Sie aus reaktiver Schadensbegrenzung ein strategisches Sicherheits- und Compliance-System entwickeln, das Ihre Organisation nachhaltig schützt und Vertrauen stärkt.

Lesen
November 18, 2025
10 min
ISO 9001 Zertifizierung: Der komplette Leitfaden für Ihr Qualitätsmanagementsystem (QMS)

Erfahren Sie Schritt für Schritt wie Sie Ihr Qualitätsmanagementsystem ISO 9001 zertifizieren und typische Fehler vermeiden. Praxisnah & transparent.

Lesen
TO TOP