Beitrag teilen
HOME
/
blog
/
EU AI Act: Datenherkunft als Schlüssel zur KI-Compliance

EU AI Act: Datenherkunft als Schlüssel zur KI-Compliance

Niklas Hanitsch

Volljurist und Compliance-Experte

January 5, 2026

5 Minuten

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Key Takeaways

Der EU AI Act verlangt einen lückenlosen Nachweis der Datenherkunft für Hochrisiko-KI.

Fehlende Datenprovenienz macht selbst leistungsstarke KI rechtlich angreifbar.

Fehlende Datenprovenienz macht selbst leistungsstarke KI rechtlich angreifbar.

Gute Datenprovenienz verbessert nicht nur Compliance, sondern auch die Modellqualität.

Stellen Sie sich vor, Sie kaufen einen hochwertigen Gebrauchtwagen. Der Händler versichert Ihnen, dass alles in Ordnung ist. Doch im Handschuhfach fehlt das Scheckheft, und niemand kann Ihnen sagen, wo das Auto die letzten drei Jahre war oder ob es einen Unfall hatte. Würden Sie diesem Auto Ihre Familie anvertrauen?

Wahrscheinlich nicht.

Doch genau dieses Risiko gehen Unternehmen täglich ein, wenn sie Künstliche Intelligenz entwickeln oder einsetzen. Sie trainieren Modelle mit riesigen Datensätzen, deren Ursprung oft im Dunkeln liegt. Solange das Modell funktioniert, fragt niemand nach. Doch mit dem Inkrafttreten des EU AI Act ändert sich diese Spielregeln grundlegend.

Es reicht nicht mehr, dass eine KI „funktioniert“. Sie müssen beweisen können, womit sie gefüttert wurde.

In diesem Artikel tauchen wir tief in das Thema Datenprovenienz (Data Provenance) ein. Wir zeigen Ihnen, warum der bloße Kaufvertrag für Daten nicht mehr ausreicht und wie Sie Licht in die „Black Box“ Ihrer KI-Lieferkette bringen – nicht nur, um Bußgelder zu vermeiden, sondern um bessere, fairere und robustere Systeme zu bauen.

Das Fundament: Was ist Datenprovenienz eigentlich?

Bevor wir in die technische Umsetzung springen, müssen wir ein gemeinsames Verständnis schaffen. In der Welt der Compliance und Data Science wird oft mit Begriffen jongliert, die ähnlich klingen, aber unterschiedliche juristische Konsequenzen haben.

Datenprovenienz (oder der Nachweis der Datenherkunft) ist im Grunde der Lebenslauf eines Datensatzes. Es geht nicht nur darum zu wissen, dass Sie Daten besitzen, sondern die gesamte Historie lückenlos nachvollziehen zu können:

  1. Ursprung: Wo wurden die Daten erstmals erhoben? (z.B. IoT-Sensoren, Web-Scraping, Umfragen)
  2. Besitzwechsel: Durch wessen Hände sind die Daten gegangen? (Data Broker, Aggregatoren)
  3. Transformation: Wie wurden die Daten verändert? (Bereinigung, Anonymisierung, Labeling)

Dies unterscheidet sich von der reinen Data Lineage, die oft nur den technischen Fluss innerhalb Ihrer Systeme beschreibt. Provenienz blickt über Ihre Firmengrenzen hinaus zurück in die Lieferkette.

Diese Grafik erklärt anschaulich den Unterschied zwischen einfachen Datenherkunft und umfassendem Nachweis der Datenherkunft in komplexen Lieferketten – eine zentrale Voraussetzung für die Einhaltung des KI Acts.

Warum der AI Act hier keinen Spaß versteht

Der EU AI Act setzt, insbesondere für sogenannte Hochrisiko-KI-Systeme, strenge Maßstäbe an die Datenqualität. Artikel 10 (Daten und Datenverwaltung) ist hier der entscheidende Hebel. Der Gesetzgeber fordert, dass Trainings-, Validierungs- und Testdatensätze:

  • relevant,
  • repräsentativ,
  • fehlerfrei und
  • vollständig sind.

Das Problem: Wie wollen Sie garantieren, dass ein Datensatz „repräsentativ“ und „fehlerfrei“ ist, wenn Sie nicht wissen, wie er entstanden ist? Ohne einen lückenlosen Nachweis der Herkunft ist die AI-Datenqualität kaum zu belegen. Ein Datensatz, der über fünf Ecken von einem Drittanbieter gekauft wurde, könnte bereits veraltete Informationen enthalten oder unzulässige Bias (Verzerrungen) aufweisen, die Sie ohne Provenienz-Check nie entdecken würden.

Die Herausforderung: Komlpexe Lieferketten und Drittanbieter

In der idealen Welt sammeln Unternehmen ihre Daten selbst. In der Realität sieht es anders aus: KI-Entwicklung ist heute ein riesiges Ökosystem aus Drittanbietern.

  • Open-Source-Datasets: Beliebt, aber oft schlecht dokumentiert.
  • Data Broker: Aggregieren Daten aus tausenden Quellen.
  • Outsourcing: Labeling-Dienstleister in Drittstaaten verarbeiten die Rohdaten.

Jeder dieser Übergabepunkte ist ein potenzielles Risiko für die Integrität Ihrer Daten. Wenn Sie Daten von einem Broker kaufen, erhalten Sie oft das fertige Produkt, aber selten die "Zutatenliste".

Hier entstehen die eigentlichen Lieferkettenrisiken. Ähnlich wie wir es aus der IT-Sicherheit kennen, wo eine unsichere Komponente das ganze System gefährden kann, kann ein „vergifteter“ oder rechtlich fragwürdiger Datensatz Ihr gesamtes KI-Modell illegitim machen. Der AI Act verlangt faktisch eine Due Diligence für Daten, die viele Unternehmen bisher nur für Finanztransaktionen kannten.

Strategien und Tools: Vom Blindflug zur Kontrolle

Wie können Unternehmen nun den Anforderungen gerecht werden und die "Black Box" öffnen? Es reicht nicht, auf das Beste zu hoffen. Sie benötigen eine Kombination aus vertraglicher Absicherung und technischer Rückverfolgbarkeit.

1. Vertragliche Due Diligence

Bevor ein einziger Byte fließt, müssen die rechtlichen Rahmenbedingungen geklärt sein. Verträge mit Datenlieferanten müssen Klauseln enthalten, die über Standard-Garantien hinausgehen. Fordern Sie Transparenz darüber, woher der Lieferant seine Daten bezieht. Dies ist nicht nur für den AI Act relevant, sondern auch um DSGVO-Konflikte zu vermeiden.

2. Technische Implementierung der Rückverfolgbarkeit

Der spannendste Teil ist die technische Umsetzung. Hier transformieren wir abstrakte Anforderungen in Engineering-Tasks.

Eine robuste Strategie für Hochrisiko KI umfasst oft folgende Schritte:

  • Metadata Management: Jeder Datensatz erhält einen unlöschbaren Metadaten-Tag, der Quelle, Erstellungsdatum und Lizenzrechte speichert.
  • Hashing & Versionierung: Wenn Daten transformiert werden (z.B. Normalisierung), wird ein Hash des ursprünglichen und des neuen Datensatzes erstellt. So lässt sich jede Änderung auditieren.
  • Data Catalogs: Einsatz von zentralen Datenkatalogen, die nicht nur auflisten was da ist, sondern woher es kommt.

Der Prozess im Überblick

Um dies greifbar zu machen, haben wir einen Workflow visualisiert, der zeigt, wie Datenprovenienz in der Praxis aussehen kann – vom Einkauf bis zum trainierten Modell.

Dieses Flussdiagramm zeigt praxisnah den gesamten Nachweisprozess der Datenherkunft für KI-Trainingsdaten, besonders bei der Integration von Drittanbieterdaten, und erfüllt so wichtige Anforderungen des KI Acts.

Dieser strukturierte Ansatz hilft nicht nur bei der AI Act Compliance. Er schützt Sie auch vor Haftungsfallen. Denn wenn ein KI-System Schaden anrichtet (z.B. durch Diskriminierung bei der Kreditvergabe), wird die erste Frage der Behörden sein: "Auf welcher Basis hat das System das gelernt?"

Können Sie dann lückenlos belegen, dass Sie alle Sorgfaltspflichten bei der Datenauswahl erfüllt haben, sieht die Situation für die Haftung der Geschäftsführer deutlich besser aus als bei einer "Wir wussten von nichts"-Verteidigung.

Der versteckte Mehrwert: Bessere KI durch Transparenz

Viele Unternehmen sehen Compliance als Bremse. Doch beim Thema Datenherkunft verhält es sich anders: Es ist ein Qualitäts-Booster.

Wenn Sie genau wissen, woher Ihre Daten kommen, können Sie:

  • Bias früher erkennen: Wissen Sie, dass ein Datensatz aus einer Region stammt, die demografisch nicht Ihre Zielgruppe abbildet, können Sie gegensteuern.
  • Debugging beschleunigen: Verhält sich das Modell seltsam? Mit guter Provenienz finden Sie den "schuldigen" Datensatz in Minuten statt Wochen.
  • Modelle effizienter updaten: Sie müssen nur die Teile des Modells neu trainieren, die auf veralteten Datenquellen basieren.

Es entsteht eine Synergie: Die Maßnahmen für Datenqualität und AI Act Compliance führen fast automatisch zu leistungsfähigeren und robusteren KI-Produkten.

Zusammenfassung und Ausblick

Der Nachweis der Datenherkunft ist keine rein bürokratische Übung. Er ist das Fundament für vertrauenswürdige KI. In komplexen Lieferketten den Überblick zu behalten, erfordert zwar initialen Aufwand, zahlt sich aber durch Rechtssicherheit und höhere Produktqualität aus.

Einprägsame Visualisierung von Nutzen und Risiken des Datenherkunftsnachweises, die das zentrale Lernziel unterstützt, warum sorgfältige Datenprovenienz für KI Act Compliance unverzichtbar ist.

Unternehmen, die jetzt handeln und Transparenz in ihre Datenströme bringen, werden den AI Act nicht als Hürde, sondern als Qualitätsiegel nutzen können.

Nächste Schritte

Fühlen Sie sich bereit, Ihre Datenlieferkette unter die Lupe zu nehmen? Beginnen Sie nicht mit Technologie, sondern mit einer Bestandsaufnahme: Welche Daten nutzen wir, und woher kommen sie wirklich?

Wenn Sie tiefer in die technische Umsetzung einsteigen wollen oder Unterstützung bei der Automatisierung Ihrer Compliance-Prozesse suchen, lohnt sich ein Blick auf unsere weiteren Ressourcen zum Thema Hochrisiko KI. Compliance muss nicht kompliziert sein – sie muss nur gut organisiert sein.

Häufig gestellte Fragen (FAQ)

Gilt der Nachweis der Datenherkunft auch für KI-Systeme, die ich nur einkaufe (Deployer)?

Ja, auch als Betreiber haben Sie Sorgfaltspflichten. Sie müssen zwar nicht das Modelltraining überwachen, aber sicherstellen, dass der Anbieter Ihnen die Konformität (inklusive Datenhinweise) bestätigt. Ignoranz schützt hier nicht vor Strafe.

Was ist der Unterschied zwischen Data Lineage und Data Provenance?

Data Lineage beschreibt meist den technischen Weg der Daten innerhalb eines Systems (z.B. von Tabelle A zu Tabelle B). Data Provenance ist umfassender und beinhaltet den Ursprung, die Urheberschaft und die rechtlichen Bedingungen der Datenentstehung, oft über Unternehmensgrenzen hinweg.

Wie gehe ich mit "alten" Daten um, deren Herkunft nicht mehr genau klärbar ist?

Das ist ein häufiges Problem. Für Hochrisiko-KI-Systeme unter dem AI Act können solche Daten ein Risiko darstellen. Eine Risikobewertung ist hier unerlässlich. Oft müssen diese Daten bereinigt oder durch besser dokumentierte Daten ersetzt werden, um die Anforderungen an Fehlerfreiheit und Repräsentativität zu erfüllen.

Brauche ich dafür Blockchain-Technologie?

Nicht zwingend. Blockchain kann helfen, einen manipulationssicheren Audit-Trail zu erstellen, ist aber oft mit hohem Aufwand verbunden. Robuste Metadaten-Management-Systeme und audit-sichere Logs sind für viele Anwendungsfälle ausreichend und einfacher zu implementieren.

Niklas Hanitsch

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Über SECJUR

SECJUR steht für eine Welt, in der Unternehmen immer compliant sind, aber nie an Compliance denken müssen. Mit dem Digital Compliance Office automatisieren Unternehmen aufwändige Arbeitsschritte und erlangen Compliance-Standards wie DSGVO, ISO 27001 oder TISAX® bis zu 50% schneller.

Compliance, completed

Automatisieren Sie Ihre Compliance Prozesse mit dem Digital Compliance Office

Mehr erfahren

Frequently asked questions

Everything you need to know about the product and billing.

Weiterlesen

January 5, 2026
5 Minuten
EU AI Act: Data Governance an neue Anforderungen anpassen

Viele Unternehmen verfügen bereits über etablierte Data-Governance-Frameworks, doch der EU AI Act stellt völlig neue Anforderungen an Datenqualität, Repräsentativität und Nachvollziehbarkeit. Dieser Leitfaden zeigt, wie Sie bestehende Modelle wie DAMA-DMBOK gezielt erweitern, um Hochrisiko-KI rechtskonform und zugleich leistungsfähiger zu machen. Erfahren Sie, wie Data Governance zur zentralen Säule Ihrer AI-Act-Compliance wird – und wie Sie Regulierung in einen echten Wettbewerbsvorteil verwandeln.

Lesen
June 2, 2023
Der Geltungsbereich der DSGVO einfach erklärt

Im Zeitalter des grenzenlosen Internets gewinnt der Datenschutz an Bedeutung. Die EU-Datenschutzgrundverordnung (DSGVO) hat das Ziel, ein einheitliches Datenschutzniveau zu gewährleisten. Doch gilt die DSGVO nur für Unternehmen innerhalb der EU? Der Anwendungsbereich umfasst auch Unternehmen außerhalb der EU, die Waren oder Dienstleistungen in der EU anbieten oder das Verhalten von EU-Bürgern beobachten. Dieser Artikel untersucht den räumlichen Geltungsbereich der DSGVO und erklärt die Unterschiede zwischen dem Datenschutzbeauftragten und dem Unionsvertreter.

Lesen
December 15, 2025
5 Minuten
NIS2 & Lieferkette: Das Risiko durch Sub-Sub-Unternehmer

Moderne Cyberangriffe nutzen gezielt Schwachstellen tief in der Lieferkette – oft bei Sub-Sub-Unternehmern, die Unternehmen kaum im Blick haben. Die NIS2-Richtlinie fordert deshalb Transparenz und Risikomanagement über Tier-1 hinaus und macht N-Tier-Lieferanten zum entscheidenden Sicherheitsfaktor. Dieser Leitfaden zeigt praxisnah, wie Sie blinde Flecken in komplexen Lieferketten erkennen, Pflichten wirksam kaskadieren und mit risikobasierten sowie automatisierten Ansätzen echte Cyber-Resilienz aufbauen.

Lesen
TO TOP