EU AI Act: Datenherkunft als Schlüssel zur KI-Compliance
EU AI Act: Datenherkunft als Schlüssel zur KI-Compliance
Niklas Hanitsch
Volljurist und Compliance-Experte
January 5, 2026
5 Minuten
Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.
Key Takeaways
Der EU AI Act verlangt einen lückenlosen Nachweis der Datenherkunft für Hochrisiko-KI.
Fehlende Datenprovenienz macht selbst leistungsstarke KI rechtlich angreifbar.
Fehlende Datenprovenienz macht selbst leistungsstarke KI rechtlich angreifbar.
Gute Datenprovenienz verbessert nicht nur Compliance, sondern auch die Modellqualität.
Stellen Sie sich vor, Sie kaufen einen hochwertigen Gebrauchtwagen. Der Händler versichert Ihnen, dass alles in Ordnung ist. Doch im Handschuhfach fehlt das Scheckheft, und niemand kann Ihnen sagen, wo das Auto die letzten drei Jahre war oder ob es einen Unfall hatte. Würden Sie diesem Auto Ihre Familie anvertrauen?
Wahrscheinlich nicht.
Doch genau dieses Risiko gehen Unternehmen täglich ein, wenn sie Künstliche Intelligenz entwickeln oder einsetzen. Sie trainieren Modelle mit riesigen Datensätzen, deren Ursprung oft im Dunkeln liegt. Solange das Modell funktioniert, fragt niemand nach. Doch mit dem Inkrafttreten des EU AI Act ändert sich diese Spielregeln grundlegend.
Es reicht nicht mehr, dass eine KI „funktioniert“. Sie müssen beweisen können, womit sie gefüttert wurde.
In diesem Artikel tauchen wir tief in das Thema Datenprovenienz (Data Provenance) ein. Wir zeigen Ihnen, warum der bloße Kaufvertrag für Daten nicht mehr ausreicht und wie Sie Licht in die „Black Box“ Ihrer KI-Lieferkette bringen – nicht nur, um Bußgelder zu vermeiden, sondern um bessere, fairere und robustere Systeme zu bauen.
Das Fundament: Was ist Datenprovenienz eigentlich?
Bevor wir in die technische Umsetzung springen, müssen wir ein gemeinsames Verständnis schaffen. In der Welt der Compliance und Data Science wird oft mit Begriffen jongliert, die ähnlich klingen, aber unterschiedliche juristische Konsequenzen haben.
Datenprovenienz (oder der Nachweis der Datenherkunft) ist im Grunde der Lebenslauf eines Datensatzes. Es geht nicht nur darum zu wissen, dass Sie Daten besitzen, sondern die gesamte Historie lückenlos nachvollziehen zu können:
Ursprung: Wo wurden die Daten erstmals erhoben? (z.B. IoT-Sensoren, Web-Scraping, Umfragen)
Besitzwechsel: Durch wessen Hände sind die Daten gegangen? (Data Broker, Aggregatoren)
Transformation: Wie wurden die Daten verändert? (Bereinigung, Anonymisierung, Labeling)
Dies unterscheidet sich von der reinen Data Lineage, die oft nur den technischen Fluss innerhalb Ihrer Systeme beschreibt. Provenienz blickt über Ihre Firmengrenzen hinaus zurück in die Lieferkette.
Warum der AI Act hier keinen Spaß versteht
Der EU AI Act setzt, insbesondere für sogenannte Hochrisiko-KI-Systeme, strenge Maßstäbe an die Datenqualität. Artikel 10 (Daten und Datenverwaltung) ist hier der entscheidende Hebel. Der Gesetzgeber fordert, dass Trainings-, Validierungs- und Testdatensätze:
relevant,
repräsentativ,
fehlerfrei und
vollständig sind.
Das Problem: Wie wollen Sie garantieren, dass ein Datensatz „repräsentativ“ und „fehlerfrei“ ist, wenn Sie nicht wissen, wie er entstanden ist? Ohne einen lückenlosen Nachweis der Herkunft ist die AI-Datenqualität kaum zu belegen. Ein Datensatz, der über fünf Ecken von einem Drittanbieter gekauft wurde, könnte bereits veraltete Informationen enthalten oder unzulässige Bias (Verzerrungen) aufweisen, die Sie ohne Provenienz-Check nie entdecken würden.
Die Herausforderung: Komlpexe Lieferketten und Drittanbieter
In der idealen Welt sammeln Unternehmen ihre Daten selbst. In der Realität sieht es anders aus: KI-Entwicklung ist heute ein riesiges Ökosystem aus Drittanbietern.
Open-Source-Datasets: Beliebt, aber oft schlecht dokumentiert.
Data Broker: Aggregieren Daten aus tausenden Quellen.
Outsourcing: Labeling-Dienstleister in Drittstaaten verarbeiten die Rohdaten.
Jeder dieser Übergabepunkte ist ein potenzielles Risiko für die Integrität Ihrer Daten. Wenn Sie Daten von einem Broker kaufen, erhalten Sie oft das fertige Produkt, aber selten die "Zutatenliste".
Hier entstehen die eigentlichen Lieferkettenrisiken. Ähnlich wie wir es aus der IT-Sicherheit kennen, wo eine unsichere Komponente das ganze System gefährden kann, kann ein „vergifteter“ oder rechtlich fragwürdiger Datensatz Ihr gesamtes KI-Modell illegitim machen. Der AI Act verlangt faktisch eine Due Diligence für Daten, die viele Unternehmen bisher nur für Finanztransaktionen kannten.
Strategien und Tools: Vom Blindflug zur Kontrolle
Wie können Unternehmen nun den Anforderungen gerecht werden und die "Black Box" öffnen? Es reicht nicht, auf das Beste zu hoffen. Sie benötigen eine Kombination aus vertraglicher Absicherung und technischer Rückverfolgbarkeit.
1. Vertragliche Due Diligence
Bevor ein einziger Byte fließt, müssen die rechtlichen Rahmenbedingungen geklärt sein. Verträge mit Datenlieferanten müssen Klauseln enthalten, die über Standard-Garantien hinausgehen. Fordern Sie Transparenz darüber, woher der Lieferant seine Daten bezieht. Dies ist nicht nur für den AI Act relevant, sondern auch um DSGVO-Konflikte zu vermeiden.
2. Technische Implementierung der Rückverfolgbarkeit
Der spannendste Teil ist die technische Umsetzung. Hier transformieren wir abstrakte Anforderungen in Engineering-Tasks.
Eine robuste Strategie für Hochrisiko KI umfasst oft folgende Schritte:
Metadata Management: Jeder Datensatz erhält einen unlöschbaren Metadaten-Tag, der Quelle, Erstellungsdatum und Lizenzrechte speichert.
Hashing & Versionierung: Wenn Daten transformiert werden (z.B. Normalisierung), wird ein Hash des ursprünglichen und des neuen Datensatzes erstellt. So lässt sich jede Änderung auditieren.
Data Catalogs: Einsatz von zentralen Datenkatalogen, die nicht nur auflisten was da ist, sondern woher es kommt.
Der Prozess im Überblick
Um dies greifbar zu machen, haben wir einen Workflow visualisiert, der zeigt, wie Datenprovenienz in der Praxis aussehen kann – vom Einkauf bis zum trainierten Modell.
Dieser strukturierte Ansatz hilft nicht nur bei der AI Act Compliance. Er schützt Sie auch vor Haftungsfallen. Denn wenn ein KI-System Schaden anrichtet (z.B. durch Diskriminierung bei der Kreditvergabe), wird die erste Frage der Behörden sein: "Auf welcher Basis hat das System das gelernt?"
Können Sie dann lückenlos belegen, dass Sie alle Sorgfaltspflichten bei der Datenauswahl erfüllt haben, sieht die Situation für die Haftung der Geschäftsführer deutlich besser aus als bei einer "Wir wussten von nichts"-Verteidigung.
Der versteckte Mehrwert: Bessere KI durch Transparenz
Viele Unternehmen sehen Compliance als Bremse. Doch beim Thema Datenherkunft verhält es sich anders: Es ist ein Qualitäts-Booster.
Wenn Sie genau wissen, woher Ihre Daten kommen, können Sie:
Bias früher erkennen: Wissen Sie, dass ein Datensatz aus einer Region stammt, die demografisch nicht Ihre Zielgruppe abbildet, können Sie gegensteuern.
Debugging beschleunigen: Verhält sich das Modell seltsam? Mit guter Provenienz finden Sie den "schuldigen" Datensatz in Minuten statt Wochen.
Modelle effizienter updaten: Sie müssen nur die Teile des Modells neu trainieren, die auf veralteten Datenquellen basieren.
Es entsteht eine Synergie: Die Maßnahmen für Datenqualität und AI Act Compliance führen fast automatisch zu leistungsfähigeren und robusteren KI-Produkten.
Zusammenfassung und Ausblick
Der Nachweis der Datenherkunft ist keine rein bürokratische Übung. Er ist das Fundament für vertrauenswürdige KI. In komplexen Lieferketten den Überblick zu behalten, erfordert zwar initialen Aufwand, zahlt sich aber durch Rechtssicherheit und höhere Produktqualität aus.
Unternehmen, die jetzt handeln und Transparenz in ihre Datenströme bringen, werden den AI Act nicht als Hürde, sondern als Qualitätsiegel nutzen können.
Nächste Schritte
Fühlen Sie sich bereit, Ihre Datenlieferkette unter die Lupe zu nehmen? Beginnen Sie nicht mit Technologie, sondern mit einer Bestandsaufnahme: Welche Daten nutzen wir, und woher kommen sie wirklich?
Wenn Sie tiefer in die technische Umsetzung einsteigen wollen oder Unterstützung bei der Automatisierung Ihrer Compliance-Prozesse suchen, lohnt sich ein Blick auf unsere weiteren Ressourcen zum Thema Hochrisiko KI. Compliance muss nicht kompliziert sein – sie muss nur gut organisiert sein.
Häufig gestellte Fragen (FAQ)
Gilt der Nachweis der Datenherkunft auch für KI-Systeme, die ich nur einkaufe (Deployer)?
Ja, auch als Betreiber haben Sie Sorgfaltspflichten. Sie müssen zwar nicht das Modelltraining überwachen, aber sicherstellen, dass der Anbieter Ihnen die Konformität (inklusive Datenhinweise) bestätigt. Ignoranz schützt hier nicht vor Strafe.
Was ist der Unterschied zwischen Data Lineage und Data Provenance?
Data Lineage beschreibt meist den technischen Weg der Daten innerhalb eines Systems (z.B. von Tabelle A zu Tabelle B). Data Provenance ist umfassender und beinhaltet den Ursprung, die Urheberschaft und die rechtlichen Bedingungen der Datenentstehung, oft über Unternehmensgrenzen hinweg.
Wie gehe ich mit "alten" Daten um, deren Herkunft nicht mehr genau klärbar ist?
Das ist ein häufiges Problem. Für Hochrisiko-KI-Systeme unter dem AI Act können solche Daten ein Risiko darstellen. Eine Risikobewertung ist hier unerlässlich. Oft müssen diese Daten bereinigt oder durch besser dokumentierte Daten ersetzt werden, um die Anforderungen an Fehlerfreiheit und Repräsentativität zu erfüllen.
Brauche ich dafür Blockchain-Technologie?
Nicht zwingend. Blockchain kann helfen, einen manipulationssicheren Audit-Trail zu erstellen, ist aber oft mit hohem Aufwand verbunden. Robuste Metadaten-Management-Systeme und audit-sichere Logs sind für viele Anwendungsfälle ausreichend und einfacher zu implementieren.
Als Jurist mit langjähriger Erfahrung als Anwalt für Datenschutz und IT-Recht kennt Niklas die Antwort auf so gut wie jede Frage im Bereich der digitalen Compliance. Er war in der Vergangenheit unter anderem für Taylor Wessing und Amazon tätig. Als Gründer und Geschäftsführer von SECJUR, lässt Niklas sein Wissen vor allem in die Produktentwicklung unserer Compliance-Automatisierungsplattform einfließen.
Über SECJUR
SECJUR steht für eine Welt, in der Unternehmen immer compliant sind, aber nie an Compliance denken müssen. Mit dem Digital Compliance Office automatisieren Unternehmen aufwändige Arbeitsschritte und erlangen Compliance-Standards wie DSGVO, ISO 27001 oder TISAX® bis zu 50% schneller.
Compliance, completed
Automatisieren Sie Ihre Compliance Prozesse mit dem Digital Compliance Office
Viele Unternehmen reagieren im Krisenfall schnell, doch versäumen es, systematisch daraus zu lernen. Dieser Leitfaden zeigt, wie die Post-Incident Review zum zentralen Motor für kontinuierliche Verbesserung wird. So identifizieren Sie Ursachen, schließen Schwachstellen und passen Ihre Notfall- und Sicherheitspläne gezielt an. Erfahren Sie, wie Sie Vorfälle nicht nur bewältigen, sondern in echte NIS2-konforme Resilienz und nachhaltige Sicherheit verwandeln.
Ein Ausfall in der Cloud kann schnell zur NIS2-Herausforderung werden. Erfahren Sie, wie Sie mit automatisierter Notfallwiederherstellung, klar definierten RTO- und RPO-Zielen und dem Einsatz von Infrastructure as Code Ihre Systeme schnell, sicher und compliant wiederherstellen. Dieser Leitfaden zeigt, wie Sie aus regulatorischer Pflicht echte digitale Resilienz schaffen – effizient, prüfsicher und zukunftsfähig.
Viele Unternehmen unterschätzen die Rolle der Kommunikation im Cybervorfall und riskieren damit unter NIS2 hohe Bußgelder und Vertrauensverlust. Dieser Leitfaden zeigt, wie Sie in den ersten 24 Stunden strukturiert, schnell und souverän handeln – von der Erstmeldung an Behörden bis zur klaren internen und externen Kommunikation. So behalten Sie die Kontrolle über die Situation, statt sie an Gerüchte und Krisendruck zu verlieren.