In diesem Beitrag

Beitrag teilen

HOME

/

blog

/

EU AI Act: Datenherkunft als Schlüssel zur KI-Compliance

Niklas Hanitsch

Volljurist und Compliance-Experte

05 Jan 2026

5 Minuten

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Key Takeaways

Der EU AI Act verlangt einen lückenlosen Nachweis der Datenherkunft für Hochrisiko-KI.

Fehlende Datenprovenienz macht selbst leistungsstarke KI rechtlich angreifbar.

Gute Datenprovenienz verbessert nicht nur Compliance, sondern auch die Modellqualität.

Stellen Sie sich vor, Sie kaufen einen hochwertigen Gebrauchtwagen. Der Händler versichert Ihnen, dass alles in Ordnung ist. Doch im Handschuhfach fehlt das Scheckheft, und niemand kann Ihnen sagen, wo das Auto die letzten drei Jahre war oder ob es einen Unfall hatte. Würden Sie diesem Auto Ihre Familie anvertrauen?

Wahrscheinlich nicht.

‍

Doch genau dieses Risiko gehen Unternehmen täglich ein, wenn sie Künstliche Intelligenz entwickeln oder einsetzen. Sie trainieren Modelle mit riesigen Datensätzen, deren Ursprung oft im Dunkeln liegt. Solange das Modell funktioniert, fragt niemand nach. Doch mit dem Inkrafttreten des EU AI Act ändert sich diese Spielregeln grundlegend.

‍

Es reicht nicht mehr, dass eine KI „funktioniert“. Sie müssen beweisen können, womit sie gefüttert wurde.

‍

In diesem Artikel tauchen wir tief in das Thema Datenprovenienz (Data Provenance) ein. Wir zeigen Ihnen, warum der bloße Kaufvertrag für Daten nicht mehr ausreicht und wie Sie Licht in die „Black Box“ Ihrer KI-Lieferkette bringen – nicht nur, um Bußgelder zu vermeiden, sondern um bessere, fairere und robustere Systeme zu bauen.

‍

Das Fundament: Was ist Datenprovenienz eigentlich?

‍

Bevor wir in die technische Umsetzung springen, müssen wir ein gemeinsames Verständnis schaffen. In der Welt der Compliance und Data Science wird oft mit Begriffen jongliert, die ähnlich klingen, aber unterschiedliche juristische Konsequenzen haben.

‍

Datenprovenienz (oder der Nachweis der Datenherkunft) ist im Grunde der Lebenslauf eines Datensatzes. Es geht nicht nur darum zu wissen, dass Sie Daten besitzen, sondern die gesamte Historie lückenlos nachvollziehen zu können:

Ursprung: Wo wurden die Daten erstmals erhoben? (z.B. IoT-Sensoren, Web-Scraping, Umfragen)
Besitzwechsel: Durch wessen Hände sind die Daten gegangen? (Data Broker, Aggregatoren)
Transformation: Wie wurden die Daten verändert? (Bereinigung, Anonymisierung, Labeling)

‍

Dies unterscheidet sich von der reinen Data Lineage, die oft nur den technischen Fluss innerhalb Ihrer Systeme beschreibt. Provenienz blickt über Ihre Firmengrenzen hinaus zurück in die Lieferkette.

‍

Diese Grafik erklärt anschaulich den Unterschied zwischen einfachen Datenherkunft und umfassendem Nachweis der Datenherkunft in komplexen Lieferketten – eine zentrale Voraussetzung für die Einhaltung des KI Acts.

‍

Warum der AI Act hier keinen Spaß versteht

‍

Der EU AI Act setzt, insbesondere für sogenannte Hochrisiko-KI-Systeme, strenge Maßstäbe an die Datenqualität. Artikel 10 (Daten und Datenverwaltung) ist hier der entscheidende Hebel. Der Gesetzgeber fordert, dass Trainings-, Validierungs- und Testdatensätze:

relevant,
repräsentativ,
fehlerfrei und
vollständig sind.

‍

Das Problem: Wie wollen Sie garantieren, dass ein Datensatz „repräsentativ“ und „fehlerfrei“ ist, wenn Sie nicht wissen, wie er entstanden ist? Ohne einen lückenlosen Nachweis der Herkunft ist die AI-Datenqualität kaum zu belegen. Ein Datensatz, der über fünf Ecken von einem Drittanbieter gekauft wurde, könnte bereits veraltete Informationen enthalten oder unzulässige Bias (Verzerrungen) aufweisen, die Sie ohne Provenienz-Check nie entdecken würden.

‍

Die Herausforderung: Komlpexe Lieferketten und Drittanbieter

‍

In der idealen Welt sammeln Unternehmen ihre Daten selbst. In der Realität sieht es anders aus: KI-Entwicklung ist heute ein riesiges Ökosystem aus Drittanbietern.

Open-Source-Datasets: Beliebt, aber oft schlecht dokumentiert.
Data Broker: Aggregieren Daten aus tausenden Quellen.
Outsourcing: Labeling-Dienstleister in Drittstaaten verarbeiten die Rohdaten.

‍

Jeder dieser Übergabepunkte ist ein potenzielles Risiko für die Integrität Ihrer Daten. Wenn Sie Daten von einem Broker kaufen, erhalten Sie oft das fertige Produkt, aber selten die "Zutatenliste".

‍

Hier entstehen die eigentlichen Lieferkettenrisiken. Ähnlich wie wir es aus der IT-Sicherheit kennen, wo eine unsichere Komponente das ganze System gefährden kann, kann ein „vergifteter“ oder rechtlich fragwürdiger Datensatz Ihr gesamtes KI-Modell illegitim machen. Der AI Act verlangt faktisch eine Due Diligence für Daten, die viele Unternehmen bisher nur für Finanztransaktionen kannten.

‍

Strategien und Tools: Vom Blindflug zur Kontrolle

‍

Wie können Unternehmen nun den Anforderungen gerecht werden und die "Black Box" öffnen? Es reicht nicht, auf das Beste zu hoffen. Sie benötigen eine Kombination aus vertraglicher Absicherung und technischer Rückverfolgbarkeit.

‍

1. Vertragliche Due Diligence

‍

Bevor ein einziger Byte fließt, müssen die rechtlichen Rahmenbedingungen geklärt sein. Verträge mit Datenlieferanten müssen Klauseln enthalten, die über Standard-Garantien hinausgehen. Fordern Sie Transparenz darüber, woher der Lieferant seine Daten bezieht. Dies ist nicht nur für den AI Act relevant, sondern auch um DSGVO-Konflikte zu vermeiden.

‍

2. Technische Implementierung der Rückverfolgbarkeit

‍

Der spannendste Teil ist die technische Umsetzung. Hier transformieren wir abstrakte Anforderungen in Engineering-Tasks.

‍

Eine robuste Strategie für Hochrisiko KI umfasst oft folgende Schritte:

Metadata Management: Jeder Datensatz erhält einen unlöschbaren Metadaten-Tag, der Quelle, Erstellungsdatum und Lizenzrechte speichert.
‍
Hashing & Versionierung: Wenn Daten transformiert werden (z.B. Normalisierung), wird ein Hash des ursprünglichen und des neuen Datensatzes erstellt. So lässt sich jede Änderung auditieren.
‍
Data Catalogs: Einsatz von zentralen Datenkatalogen, die nicht nur auflisten was da ist, sondern woher es kommt.

‍

Der Prozess im Überblick

‍

Um dies greifbar zu machen, haben wir einen Workflow visualisiert, der zeigt, wie Datenprovenienz in der Praxis aussehen kann – vom Einkauf bis zum trainierten Modell.

‍

Dieses Flussdiagramm zeigt praxisnah den gesamten Nachweisprozess der Datenherkunft für KI-Trainingsdaten, besonders bei der Integration von Drittanbieterdaten, und erfüllt so wichtige Anforderungen des KI Acts.

‍

Dieser strukturierte Ansatz hilft nicht nur bei der AI Act Compliance. Er schützt Sie auch vor Haftungsfallen. Denn wenn ein KI-System Schaden anrichtet (z.B. durch Diskriminierung bei der Kreditvergabe), wird die erste Frage der Behörden sein: "Auf welcher Basis hat das System das gelernt?"

‍

Können Sie dann lückenlos belegen, dass Sie alle Sorgfaltspflichten bei der Datenauswahl erfüllt haben, sieht die Situation für die Haftung der Geschäftsführer deutlich besser aus als bei einer "Wir wussten von nichts"-Verteidigung.

‍

Der versteckte Mehrwert: Bessere KI durch Transparenz

‍

Viele Unternehmen sehen Compliance als Bremse. Doch beim Thema Datenherkunft verhält es sich anders: Es ist ein Qualitäts-Booster.

‍

Wenn Sie genau wissen, woher Ihre Daten kommen, können Sie:

Bias früher erkennen: Wissen Sie, dass ein Datensatz aus einer Region stammt, die demografisch nicht Ihre Zielgruppe abbildet, können Sie gegensteuern.
‍
Debugging beschleunigen: Verhält sich das Modell seltsam? Mit guter Provenienz finden Sie den "schuldigen" Datensatz in Minuten statt Wochen.
‍
Modelle effizienter updaten: Sie müssen nur die Teile des Modells neu trainieren, die auf veralteten Datenquellen basieren.

‍

Es entsteht eine Synergie: Die Maßnahmen für Datenqualität und AI Act Compliance führen fast automatisch zu leistungsfähigeren und robusteren KI-Produkten.

‍

Zusammenfassung und Ausblick

‍

Der Nachweis der Datenherkunft ist keine rein bürokratische Übung. Er ist das Fundament für vertrauenswürdige KI. In komplexen Lieferketten den Überblick zu behalten, erfordert zwar initialen Aufwand, zahlt sich aber durch Rechtssicherheit und höhere Produktqualität aus.

‍

Einprägsame Visualisierung von Nutzen und Risiken des Datenherkunftsnachweises, die das zentrale Lernziel unterstützt, warum sorgfältige Datenprovenienz für KI Act Compliance unverzichtbar ist.

‍

Unternehmen, die jetzt handeln und Transparenz in ihre Datenströme bringen, werden den AI Act nicht als Hürde, sondern als Qualitätsiegel nutzen können.

‍

Nächste Schritte

‍

Fühlen Sie sich bereit, Ihre Datenlieferkette unter die Lupe zu nehmen? Beginnen Sie nicht mit Technologie, sondern mit einer Bestandsaufnahme: Welche Daten nutzen wir, und woher kommen sie wirklich?

‍

Wenn Sie tiefer in die technische Umsetzung einsteigen wollen oder Unterstützung bei der Automatisierung Ihrer Compliance-Prozesse suchen, lohnt sich ein Blick auf unsere weiteren Ressourcen zum Thema Hochrisiko KI. Compliance muss nicht kompliziert sein – sie muss nur gut organisiert sein.

‍

Häufig gestellte Fragen (FAQ)

‍

Gilt der Nachweis der Datenherkunft auch für KI-Systeme, die ich nur einkaufe (Deployer)?

‍

‍Ja, auch als Betreiber haben Sie Sorgfaltspflichten. Sie müssen zwar nicht das Modelltraining überwachen, aber sicherstellen, dass der Anbieter Ihnen die Konformität (inklusive Datenhinweise) bestätigt. Ignoranz schützt hier nicht vor Strafe.

‍

Was ist der Unterschied zwischen Data Lineage und Data Provenance?

‍

‍Data Lineage beschreibt meist den technischen Weg der Daten innerhalb eines Systems (z.B. von Tabelle A zu Tabelle B). Data Provenance ist umfassender und beinhaltet den Ursprung, die Urheberschaft und die rechtlichen Bedingungen der Datenentstehung, oft über Unternehmensgrenzen hinweg.

‍

Wie gehe ich mit "alten" Daten um, deren Herkunft nicht mehr genau klärbar ist?

‍

‍Das ist ein häufiges Problem. Für Hochrisiko-KI-Systeme unter dem AI Act können solche Daten ein Risiko darstellen. Eine Risikobewertung ist hier unerlässlich. Oft müssen diese Daten bereinigt oder durch besser dokumentierte Daten ersetzt werden, um die Anforderungen an Fehlerfreiheit und Repräsentativität zu erfüllen.

‍

Brauche ich dafür Blockchain-Technologie?

‍

‍Nicht zwingend. Blockchain kann helfen, einen manipulationssicheren Audit-Trail zu erstellen, ist aber oft mit hohem Aufwand verbunden. Robuste Metadaten-Management-Systeme und audit-sichere Logs sind für viele Anwendungsfälle ausreichend und einfacher zu implementieren.

‍

Mehr erfahren

Niklas Hanitsch

Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.

Über SECJUR

SECJUR steht für eine Welt, in der Unternehmen immer compliant sind, aber nie an Compliance denken müssen. Mit dem Digital Compliance Office automatisieren Unternehmen aufwändige Arbeitsschritte und erlangen Compliance-Standards wie DSGVO, ISO 27001 oder TISAX® bis zu 50% schneller.

Compliance, completed

Automatisieren Sie Ihre Compliance Prozesse mit dem Digital Compliance Office

Mehr erfahren

Häufig gestellte Fragen

Die häufigsten Fragen zum Thema

Weiterlesen

November 12, 2025

4 Minuten

ISO 27001: Scope in der Cloud-Umgebungen richtig definieren

Viele Unternehmen verlassen sich auf die ISO 27001-Zertifizierung ihres Cloud-Anbieters und übersehen dabei ihre eigene Verantwortung. Dieser Leitfaden zeigt, wie Sie den Geltungsbereich Ihres ISMS in IaaS-, PaaS- und SaaS-Umgebungen korrekt definieren, das Shared Responsibility Model verstehen und auditsichere Grenzen ziehen. So schaffen Sie Klarheit über Zuständigkeiten, vermeiden Compliance-Fallen und stärken nachhaltig die Informationssicherheit in Ihrer Cloud-Strategie.

Lesen

Security Awareness Informationssicherheit - Der Faktor Mensch: Personen-Symbol und Schutzschild im SECJUR Blog

June 21, 2026

7 min

Security Awareness in der Informationssicherheit: Der Faktor Mensch

Die meisten Sicherheitsvorfälle beginnen beim Menschen. Wie Security Awareness Mitarbeiter zur ersten Verteidigungslinie macht und wie ein Programm im ISMS aussieht.

Lesen