Beitrag teilen
HOME
/
blog
/
EU AI Act: Datenqualität für Hochrisiko-KI

EU AI Act: Datenqualität für Hochrisiko-KI

Niklas Hanitsch

Volljurist und Compliance-Experte

December 3, 2025

5 Minuten

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Key Takeaways

Datenqualität ist unter dem EU AI Act keine Option mehr, sondern eine gesetzliche Pflicht.

Bias in Trainingsdaten kann direkt zu Compliance-Verstößen und Haftungsrisiken führen.

Repräsentative, fehlerfreie Daten sind die Grundlage für vertrauenswürdige Hochrisiko-KI.

Ohne saubere Data Governance ist keine AI-Act-konforme KI möglich.

Stellen Sie sich vor, Ihr neues KI-System zur Kreditwürdigkeitsprüfung läuft auf Hochtouren. Es ist schnell, effizient und automatisiert Hunderte von Entscheidungen pro Tag. Doch dann stellt sich heraus, dass es systematisch Anträge aus bestimmten Postleitzahlengebieten ablehnt – nicht weil die Antragsteller nicht kreditwürdig sind, sondern weil die Trainingsdaten des Systems einen unentdeckten sozioökonomischen Bias enthielten.

Was wie ein technisches Problem klingt, ist unter dem neuen EU AI Act ein Compliance-Alptraum. Es geht nicht mehr nur darum, ob Ihre KI funktioniert, sondern darum, womit sie funktioniert. Die Qualität und Governance Ihrer Daten sind vom „Nice-to-have“ zur zentralen gesetzlichen Anforderung geworden. Schlechte Daten führen nicht mehr nur zu schlechten Ergebnissen, sondern zu empfindlichen Strafen und Reputationsschäden.

Dieser Artikel ist Ihr Praxisleitfaden. Wir übersetzen das Juristendeutsch des AI Acts in die Sprache von Entwicklern, Datenwissenschaftlern und Produktmanagern. Wir zeigen Ihnen, was wirklich hinter den Anforderungen an Daten für Hochrisiko-KI-Systeme steckt und wie Sie ein robustes Fundament für konforme und vertrauenswürdige KI schaffen.

Warum Daten das Fundament (und die größte Hürde) des AI Acts sind

Das Prinzip „Garbage In, Garbage Out“ ist in der Datenwissenschaft ein alter Hut. Der EU AI Act verleiht ihm nun eine neue, rechtliche Schlagkraft. Für sogenannte Hochrisiko-KI-Systeme – also Anwendungen in kritischen Bereichen wie Personalwesen, Kreditvergabe oder medizinischer Diagnostik – sind die Anforderungen an die verwendeten Daten besonders streng.

Im Zentrum dieser Anforderungen steht Artikel 10 des AI Acts. Dieser Artikel ist quasi das Grundgesetz für Ihre Daten. Er legt fest, dass die zum Trainieren, Validieren und Testen verwendeten Datensätze bestimmte Qualitätskriterien erfüllen müssen. Wer diese ignoriert, riskiert nicht nur eine fehlerhafte KI, sondern auch die Marktzulassung.

Für ein tieferes Verständnis der gesamten Verordnung empfehlen wir unseren umfassenden Leitfaden über den EU AI Act. Doch für den Moment konzentrieren wir uns auf das Herzstück: die Daten.

Artikel 10 entschlüsselt: Die 5 Säulen der Datenqualität für Ihre KI

Artikel 10 wirkt auf den ersten Blick abstrakt. Doch bricht man ihn herunter, kristallieren sich fünf klare, praktische Säulen heraus, die jeder Datensatz für Hochrisiko-KI stützen muss.

1. Relevanz

Die Frage: Passen die Daten wirklich zum geplanten Zweck der KI?

In der Praxis: Wenn Sie eine KI zur Erkennung von Hautkrebs entwickeln, sind Millionen von Katzenbildern irrelevant, egal wie hochauflösend sie sind. Die Daten müssen den Anwendungsbereich und die Zielgruppe der KI direkt widerspiegeln. Das klingt trivial, ist aber eine häufige Fehlerquelle, wenn aus Bequemlichkeit auf leicht verfügbare, aber unpassende Datensätze zurückgegriffen wird.

2. Repräsentativität

Die Frage: Spiegelt der Datensatz die reale Welt und die betroffenen Personengruppen angemessen wider?

In der Praxis: Dies ist der Kern der Bias-Prävention. Ein Gesichtserkennungssystem, das überwiegend mit Bildern von Menschen mit heller Hautfarbe trainiert wurde, wird bei Menschen mit dunklerer Hautfarbe eine höhere Fehlerquote aufweisen. Der AI Act verlangt, dass Sie proaktiv sicherstellen, dass Ihre Daten die demografische Vielfalt (Alter, Geschlecht, Herkunft etc.) abdecken, die für den Einsatzbereich Ihrer KI relevant ist.

3. Fehlerfreiheit

Die Frage: Sind die Daten korrekt, aktuell und frei von sachlichen Fehlern?

In der Praxis: Falsch gelabelte Bilder, veraltete Adressen oder fehlerhafte Messwerte sind Gift für jedes KI-Modell. Der AI Act fordert einen Prozess zur Identifizierung und Korrektur solcher Fehler. Es geht darum, sicherzustellen, dass die Daten die Realität so genau wie möglich abbilden.

4. Vollständigkeit

Die Frage: Fehlen im Datensatz wichtige Informationen oder Merkmale, die zu falschen Schlussfolgerungen führen könnten?

In der Praxis: Ein Datensatz zur Vorhersage von Kreditausfällen ist unvollständig, wenn er zwar das Einkommen, aber nicht die bestehenden Verbindlichkeiten der Personen enthält. Sie müssen sicherstellen, dass Ihre Daten alle wesentlichen Dimensionen des zu lösenden Problems abdecken.

5. Data Governance und Management

Die Frage: Gibt es klare Prozesse für die Erhebung, Verarbeitung und Dokumentation der Daten?

In der Praxis: Dies ist der organisatorische Rahmen, der die anderen vier Säulen zusammenhält. Der AI Act verlangt nachvollziehbare Daten-Workflows. Sie müssen dokumentieren, woher Ihre Daten stammen (Herkunft), welche Aufbereitungsschritte durchgeführt wurden (Datenbereinigung, Labeling) und welche Annahmen Sie dabei getroffen haben.

Vom Gesetz zur Praxis: Aufbau eines konformen Daten-Governance-Frameworks

Die fünf Säulen zu kennen ist eine Sache. Sie im Unternehmensalltag zu verankern, eine andere. Hier ist ein praxisorientierter 4-Schritte-Plan, um ein konformes Daten-Governance-Framework aufzubauen.

Schritt 1: Datenerfassungsprotokolle definierenLegen Sie von Anfang an fest, welche Daten für welchen Zweck erhoben werden. Dokumentieren Sie die Datenquelle, die Erhebungsmethode und die rechtliche Grundlage (z. B. Einwilligung). Dies schafft Transparenz und ist die erste Verteidigungslinie gegen irrelevante oder unrechtmäßig erworbene Daten.

Schritt 2: Datenaufbereitung und -management etablierenJeder Schritt – von der Datenbereinigung über die Anonymisierung bis hin zum Labeling – muss nachvollziehbar sein. Nutzen Sie Versionierungstools für Ihre Datensätze, so wie Sie es für Ihren Code tun. Ein robustes Informationssicherheits-Managementsystem (ISMS) ist hierbei unerlässlich. Eine ISO 27001 Zertifizierung als Grundlage für Informationssicherheit schafft die notwendigen Strukturen, um Datenintegrität und -vertraulichkeit zu gewährleisten.

Schritt 3: Proaktive Bias-Prüfung und -MinderungWarten Sie nicht darauf, dass Bias in Ihrem fertigen Modell auftaucht. Analysieren Sie Ihre Datensätze schon vor dem Training auf mögliche Verzerrungen. Statistische Methoden können dabei helfen, Unter- oder Überrepräsentationen bestimmter Gruppen aufzudecken. Planen Sie gezielte Maßnahmen zur Minderung, z. B. durch die Beschaffung zusätzlicher Daten oder durch Techniken wie Re-Sampling.

Schritt 4: Lückenlose Dokumentation führenDies ist der oft ungeliebte, aber entscheidende letzte Schritt. Führen Sie ein „Daten-Logbuch“ (oft als „Datasheet for Datasets“ bezeichnet). Darin halten Sie fest:

  • Motivation und Zweck des Datensatzes
  • Zusammensetzung und Erhebungsprozess
  • Alle durchgeführten Vorverarbeitungsschritte
  • Bekannte Limitationen, Fehler und potenzielle Bias-Quellen

Diese Dokumentation ist Ihr wichtigster Nachweis gegenüber Regulierungsbehörden.

Der "Aha-Moment": Warum Anonymisierung allein nicht vor Bias schützt

Ein weit verbreiteter Irrglaube ist: „Wenn meine Daten anonymisiert sind, bin ich auf der sicheren Seite.“ Das ist gefährlich falsch. Anonymisierung entfernt personenbezogene Daten wie Namen oder Adressen, aber sie entfernt keine statistischen Muster.

Stellen Sie sich einen Datensatz mit Postleitzahlen und Einkommen vor. Selbst wenn alle Namen entfernt sind, korreliert die Postleitzahl oft stark mit dem durchschnittlichen Einkommen und der ethnischen Zusammensetzung eines Viertels. Eine KI, die mit diesen „anonymen“ Daten trainiert wird, kann trotzdem lernen, diskriminierende Muster zu reproduzieren.

Der AI Act zwingt uns, tiefer zu blicken. Es geht nicht nur um Datenschutz, sondern um Fairness und Repräsentativität. Anonymisierung ist ein wichtiges Werkzeug, aber sie ist kein Freifahrtschein, um die sorgfältige Prüfung auf Bias zu überspringen.

Konkrete Anwendungsfälle: Datenqualität im Härtetest

Die Anforderungen von Artikel 10 sind nicht für jede Anwendung gleich. Der Kontext ist entscheidend.

Beispiel 1: Finanzwesen (Kreditscoring-KI)

  • Herausforderung: Historische Kreditdaten können gesellschaftliche Benachteiligungen widerspiegeln. Eine KI könnte lernen, dass bestimmte demografische Gruppen ein höheres Risiko darstellen, obwohl dies auf strukturelle Ungleichheiten und nicht auf individuelle Kreditwürdigkeit zurückzuführen ist.
  • Anforderung nach AI Act: Das Institut muss nachweisen, dass der Trainingsdatensatz repräsentativ für alle Bevölkerungsgruppen ist, die einen Kredit beantragen könnten. Es muss aktiv nach potenziellen Verzerrungen suchen und diese dokumentieren und mindern.

Beispiel 2: Gesundheitswesen (KI-Diagnosetool)

  • Herausforderung: Ein KI-Tool zur Hautkrebs-Erkennung wird hauptsächlich mit Bildern von heller Haut trainiert.
  • Anforderung nach AI Act: Der Hersteller muss sicherstellen, dass der Datensatz eine ausreichende Menge an qualitativ hochwertigen Bildern von allen Hauttypen enthält. Die Dokumentation muss die genaue demografische Verteilung des Datensatzes offenlegen, damit Ärzte die Grenzen des Tools verstehen und Fehldiagnosen bei unterrepräsentierten Gruppen vermieden werden.

Ihr nächster Schritt: Von der Theorie zur Umsetzung

Die Anforderungen des EU AI Acts an Datenqualität und Governance sind mehr als eine bürokratische Hürde – sie sind eine Blaupause für die Entwicklung von besseren, faireren und robusteren KI-Systemen. Der Schlüssel zum Erfolg liegt in einem proaktiven und systematischen Ansatz.

Die Verwaltung dieser komplexen Anforderungen an Daten, Dokumentation und Risikomanagement ist eine große Herausforderung. Plattformen wie das Digital Compliance Office sind darauf ausgelegt, diesen Prozess zu strukturieren und zu automatisieren, damit sich Teams auf die Entwicklung innovativer KI konzentrieren können, anstatt sich in Compliance-Details zu verlieren.

Beginnen Sie noch heute damit, Ihre Datenpraktiken zu überprüfen und mit den hier beschriebenen Säulen abzugleichen. Es ist der erste und wichtigste Schritt auf dem Weg zur AI-Act-Konformität und zu einer KI, der Sie und Ihre Kunden wirklich vertrauen können.

FAQ: Häufig gestellte Fragen zur Datengovernance im AI Act

Was genau ist ein "Hochrisiko-KI-System"?

Der AI Act listet in Anhang III spezifische Anwendungsbereiche auf. Dazu gehören Systeme, die in kritischer Infrastruktur, Bildung, Beschäftigung (z. B. Bewerber-Screening), bei grundlegenden Dienstleistungen (z. B. Kreditvergabe), in der Strafverfolgung oder im Gesundheitswesen eingesetzt werden.

Wie beweise ich, dass meine Daten "ausreichend repräsentativ" sind?

Es gibt keine exakte Prozentzahl. Der Nachweis erfolgt durch eine sorgfältige Analyse und Dokumentation. Sie müssen den Zielkontext Ihrer KI definieren und Ihre Daten mit verlässlichen demografischen Statistiken (z. B. vom Statistischen Bundesamt) für diesen Kontext vergleichen. Die Dokumentation Ihrer Analyse und der getroffenen Maßnahmen ist der eigentliche Beweis.

Was gehört alles in eine Datendokumentation nach Artikel 10?

Denken Sie an einen Lebenslauf für Ihre Daten: Herkunft, Erstellungsdatum, Beschreibung der Merkmale (Features), durchgeführte Bereinigungsschritte, statistische Analysen zur Verteilung, bekannte Lücken oder Fehler und eine Bewertung potenzieller Bias-Risiken.

Muss ich meine alten Datensätze jetzt alle wegwerfen?

Nicht zwangsläufig. Aber Sie müssen sie nach den Kriterien des AI Acts bewerten („auditieren“). Wenn Lücken oder Bias festgestellt werden, müssen Sie diese entweder durch die Beschaffung neuer Daten beheben, durch technische Maßnahmen mindern oder – falls das nicht möglich ist – den Datensatz als ungeeignet für das Training von Hochrisiko-KI einstufen.

Niklas Hanitsch

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Über SECJUR

SECJUR steht für eine Welt, in der Unternehmen immer compliant sind, aber nie an Compliance denken müssen. Mit dem Digital Compliance Office automatisieren Unternehmen aufwändige Arbeitsschritte und erlangen Compliance-Standards wie DSGVO, ISO 27001 oder TISAX® bis zu 50% schneller.

Compliance, completed

Automatisieren Sie Ihre Compliance Prozesse mit dem Digital Compliance Office

Mehr erfahren

Frequently asked questions

Everything you need to know about the product and billing.

Weiterlesen

November 15, 2023
4 min
ISMS Definition: Was ist ein ISMS?

Erfahren Sie, warum die Sicherheit von Unternehmensinformationen nicht länger als optionales Extra betrachtet wird, sondern als unerlässliche Säule für den Erfolg und die Nachhaltigkeit von Unternehmen jeder Größe. Wir erläutern die Definition eines ISMS und dessen umfassenden Ansatz, der technische, organisatorische, rechtliche und menschliche Aspekte berücksichtigt.

Lesen
December 2, 2025
5 Minuten
NIS2 & Lieferkette: Umgang mit Non-konformen Lieferanten

Non-konforme Lieferanten sind eines der größten Risiken für Ihre NIS2-Compliance. Dieser Leitfaden zeigt praxisnah, wie Sie bei Sicherheitsmängeln in der Lieferkette systematisch eskalieren, rechtssicher handeln und Ihre Haftungsrisiken minimieren. Erfahren Sie, wie Sie mit klaren Prozessen, Fristen und vertraglichen Maßnahmen Ihre digitale Lieferkette nachhaltig absichern.

Lesen
November 12, 2025
5 Minuten
ISO 27001: Ausschlüsse im Geltungsbereich richtig begründen

Viele Unternehmen scheitern im ISO 27001-Audit nicht an fehlender Sicherheit, sondern an einem falsch definierten Geltungsbereich. Erfahren Sie, wie Sie Ihren Scope strategisch festlegen, Ausschlüsse risikobasiert und auditfest begründen und so Compliance ohne Kompromisse erreichen. Dieser Leitfaden zeigt praxisnah, wie Sie Ihr ISMS fokussieren, Ressourcen gezielt einsetzen und Ihre Zertifizierung souverän meistern.

Lesen
TO TOP