Stand: Juni 2026 · Wird beobachtet · Nächste Aktualisierung: August 2026

Data Governance für KI —die dringenden Fragen.

Ich versuche zu verstehen, was Data Governance im KI-Kontext eigentlich bedeutet. Nicht "so macht ihr es richtig", sondern: welche Fragen sich verschieben, neue auftauchen — und warum "KI ist nur so gut wie die Daten" allein nicht weiterhilft.

Diese Seite wird aus einer systematischen Knowledge Base gespeist, die Quellen zu Data Governance im KI-Kontext vernetzt. Was hier steht ist kein Endzustand — es ist eine Momentaufnahme einer sich schnell entwickelnden Landschaft. Alle Quellen sind verlinkt.

Juni 2026 · Aus KB-Recherche zu Data-Governance-Konzepten

Fünf Beobachtungen, die mich beschäftigen

1

„KI ist nur so gut wie die Daten" — der Satz stimmt, aber nicht so wie alle meinen

Er klingt nach einer technischen Wahrheit aus der deterministischen IT-Welt: saubere Daten = saubere Ergebnisse. Aber er verschleiert die eigentliche Governance-Frage: Wer definiert eigentlich "gut genug" — für welchen KI-Use-Case, mit welcher Konsequenz, für wen? Quelle: Analyse des AI-Org-Netzwerks (3.257 Nodes), Data Quality Paradox (KB).

2

Data Governance und AI Governance überlappen sich — aber kaum jemand spricht darüber

Klassische Data Governance kümmert sich um Qualität, Lineage, Zugriff. AI Governance um Bias, Transparenz, Haftung. Dazwischen liegt eine Grauzone: Trainingsdaten-Provenance, Memorization-Risiko, RAG-Kontextqualität. Beides wird getrennt diskutiert — aber die Aufgaben überlappen sich massiv. Quelle: Data Context Quality (543 conn), Privacy Risks Across the AI Lifecycle (505 conn).

3

Shadow AI ist kein IT-Problem — es ist ein strukturelles Datenrisiko

Mitarbeiter nutzen Cloud-KI mit Unternehmensdaten, ohne dass IT oder Compliance es wissen. Verbote erzeugen das Problem nicht, sie verschärfen es — genau wie bei Shadow-IT. Die Governance-Frage: Wie bekommen wir Transparenz über die Datenflüsse, ohne die Nutzung zu verhindern? Quelle: Shadow-KI in deutschen Unternehmen (KB), CSA-Monoculture-Risk-Report.

4

Die Zentrale-vs.-Dezentral-Debatte lenkt von der eigentlichen Frage ab

Die Frage ist nicht "Plattform oder nicht?", sondern "Welche Daten unter welchen Regeln in welche Umgebung?" Eine DSGVO-konforme KI-Referenzarchitektur trennt sensible von nicht-sensiblen Datenzonen — und das ist eine Governance-Entscheidung, keine Architekturfrage. Quelle: DSGVO-konforme KI-Referenzarchitektur (KB), Sechs Stack-Layer (63 conn).

5

Die spannendsten Erkenntnisse liegen nicht bei den Lösungen, sondern bei den unbequemen Fragen

Je mehr ich in der Knowledge Base suche, desto klarer wird: Zu Data Governance im KI-Kontext gibt es viele Konzepte — aber kaum jemand stellt die Verbindung zwischen Datenqualität und Organhaftung her. Vielleicht ist genau das die Lücke, die wir zuerst verstehen sollten. Quelle: AI-Org KB Netzwerkanalyse zu Data-Governance-Konzepten (135 relevante Konzepte).

Ralf Kruse
„Der Satz ,KI ist nur so gut wie die Daten' ist der meistzitierte Governance-Satz überhaupt — und gleichzeitig der irreführendste. Er klingt nach einer technischen Wahrheit, aber er verschleiert die eigentliche Frage: Wer definiert eigentlich, was ,gut genug' bedeutet? Und wer haftet, wenn die Antwort falsch war? Das ist keine Data-Engineering-Frage mehr. Das ist eine Führungsfrage."

Ralf Kruse, EnableChange — seit 2009 in der Organisationsentwicklung

Daten spielen eine andere Rolle

In der klassischen IT sind Daten Rohstoff: lagern, bereinigen, abfragen. Im KI-Kontext werden Daten zu etwas anderem — und jede Rolle hat andere Governance-Implikationen.

Quellen aus der AI-Org Knowledge Base (3.257 Nodes, Juni 2026).

Training

Was das Modell gelernt hat

Klassische Trainingsdaten — aber mit neuen Risiken: Memorization (das Modell "merkt" sich sensitive Daten), Bias (verstärkt Ungleichgewichte aus der Stichprobe). Wer garantiert die Herkunft? Wer haftet bei falschen Entscheidungen basierend auf Trainingsdaten?

Quelle: Privacy Risks Across the AI Lifecycle (505 conn), Bias-Konzepte (KB)

Kontext / RAG

Was das Modell gerade weiß

Eigene Dokumente, die per Retrieval in den Prompt eingebettet werden. Die Qualität des Outputs hängt direkt von der Kontextqualität ab — Frische, Vollständigkeit, semantische Passung. Data Governance und AI Governance überlappen sich hier: Qualität, Herkunft, semantische Bedeutung.

Quelle: Data Context Quality as AI Performance Multiplier (543 conn)

Produkt

Wiederverwendbare Daten-Assets

Daten werden nicht mehr für einzelne Use Cases aufbereitet, sondern als Produkte mit definierten Qualitätsstandards, Eigentümern und SLAs. Der Data Analyst wird zum AI Steward. Voraussetzung: bereichsübergreifende Governance.

Quelle: Datenprodukte ersetzen Use-Case-Entwicklung (720 conn)

Feedback-Loop

Was das Modell neu lernt

Produktionsdaten fließen zurück ins Training. Was passiert, wenn das Modell sich selbst verstärkt? Wenn Nutzerfeedback das Modell in eine falsche Richtung lenkt? Wer überwacht die Schleife?

Quelle: The ML Lifecycle Begins at Deployment (575 conn)

Synthetischer Output

KI erzeugt Daten für KI

Modelle generieren Trainingsdaten für andere Modelle. Das Paradox: Je mehr KI-generierte Daten im Umlauf sind, desto wertvoller werden menschliche, nicht-synthetische Daten. Wer trackt die Qualität synthetischer Daten?

Quelle: Das Paradox synthetischer Trainingsdaten (542 conn)

Governance-Grenze

Welche Daten das Unternehmen verlassen

Cloud-KI bedeutet: Logs beim Drittanbieter, Löschrechte nicht durchsetzbar. Lokale KI: volle Kontrolle, aber Betriebskosten. Wer entscheidet, welche Daten in welche Umgebung dürfen? Der Sechs-Layer-Entscheidungsrahmen beginnt hier: Layer 1 = Data/Residency.

Quelle: Lokale KI als Datenschutz-Lösung (739 conn), Stack-Layer (63 conn)

Data Governance — was dazukommt

Die klassischen Data-Governance-Aufgaben bleiben bestehen: Datenqualität, Lineage, Zugriffskontrolle, Klassifikation, Retention. Aber sie reichen nicht mehr. Acht neue Aufgabenfelder entstehen — und sie liegen genau in der Grauzone zwischen Data Governance und AI Governance.

Aus der AI-Org KB: 135 Data-Governance-relevante Konzepte identifiziert, davon 8 mit direkter KI-Schnittstelle.

Trainingsdaten-Provenance

Woher kommen die Daten wirklich? Wer hat sie erfasst, gelabelt, kuratiert? Das ist mehr als klassische Lineage — es geht um rechtliche Herkunft, Repräsentativität, Einwilligung.

Quelle: Privacy Risks Across the AI Lifecycle (505 conn)

Memorization-Risiko

DSGVO-Löschrecht ≠ Löschbarkeit aus trainierten Modellen. Wenn personenbezogene Daten im Training verwendet wurden: Kann das Modell sie reproduzieren? Wie weist man nach, dass sie nicht mehr "drin" sind?

Quelle: Privacy Risks Across the AI Lifecycle (505 conn)

RAG-Governance

Welche Kontext-Dokumente dürfen ans Modell? Wer kontrolliert Frische, Version, Autorisierung? Ein veraltetes oder falsches Dokument im Kontext = falsche Antwort — aber wer haftet?

Quelle: Data Context Quality as AI Performance Multiplier (543 conn)

Datenklassifikation für KI

Die alte Einteilung reicht nicht: "öffentlich / intern / vertraulich / geheim". Es braucht eine KI-spezifische Klassifikation: "darf in Cloud-Frontier-Modell / darf in lokales OS-Modell / darf nicht in KI-System".

Quelle: DSGVO-konforme KI-Referenzarchitektur (KB)

Shadow-AI-Daten

Mitarbeiter kopieren Unternehmensdaten in private Cloud-KI-Tools. Das Risiko ist nicht nur Datenschutz, sondern auch: diese Daten trainieren Modelle von Drittanbietern, ohne dass das Unternehmen Einfluss hat.

Quelle: Shadow-KI in deutschen Unternehmen (KB), CSA-Monoculture-Report

Synthetische Daten-Governance

KI-generierte Daten sind eine neue Datenklasse. Sie brauchen eigene Qualitätskriterien, Herkunftsnachweise und Nutzungsregeln — sonst entstehen intransparente Abhängigkeiten.

Quelle: Das Paradox synthetischer Trainingsdaten (542 conn)

Zugriffskontrolle für Agenten

KI-Agenten handeln autonom und schnell. Rollenbasierte Zugriffskontrolle (RBAC) ist zu grob. Wer regelt, auf welche Daten ein Agent zugreifen darf — und wer protokolliert das?

Quelle: Aufgabenbasierte Zero-Trust-Zugriffskontrolle (KB)

Rechtliche Gemengelage

DSGVO + AI Act + Data Act + NIS2 ergeben fragmentierte Zuständigkeiten. Der Datenschutzbeauftragte allein kann das nicht mehr abdecken. Neue Rollen entstehen: Data & AI Legal Officer.

Quelle: Data und AI Legal Officer (KB), Integriertes Datenschutz- und KI-Compliance-System (KB)

Die offenen Fragen

Die spannendsten Erkenntnisse aus der Recherche liegen nicht bei den Lösungen, sondern bei den Fragen, die niemand beantwortet. Vielleicht sind das genau die Punkte, die wir zuerst klären sollten — bevor wir in Plattform-Entscheidungen oder Architektur-Debatten einsteigen.

Wer definiert "gut genug"?
In der alten Welt war Datenqualität messbar: vollständig, korrekt, aktuell. Im KI-Kontext wird "gut" zur Verhandlungsfrage zwischen Fachbereich (was brauche ich?), Compliance (was darf ich?) und Data Engineering (was habe ich?). Wer entscheidet bei Konflikten?
Wer entscheidet, welche Daten in welche Umgebung dürfen?
Cloud, lokal, Hub — jede Umgebung hat andere Risiken. Der Stack-Layer-Ansatz (KB) beginnt mit Layer 1: Data/Residency. Aber die Entscheidung "diese Daten dürfen Cloud-Modell X, diese nicht" ist keine technische — sie ist eine Governance-Entscheidung, die Organisationen selten getroffen haben.
Wer haftet, wenn Datenqualität zu KI-Fehlentscheidungen führt?
Wenn ein falsch gelabelter Datensatz zu diskriminierenden Entscheidungen führt — wer trägt die Verantwortung? Der Data Engineer, der Business Owner, die Führungskraft, die das Modell freigegeben hat? Organhaftung und Ki-Haftung sind ein Tabuthema.
Wer hat das Mandat für Data Governance im KI-Kontext?
Data Governance wird oft an IT oder Data Engineering delegiert. Aber die KI-spezifischen Fragen (Bias, Transparenz, Haftung) können nur Fachbereich und Führung beantworten. Der Dodge "Das ist ein IT-Thema" funktioniert hier nicht mehr.
Wie verhindern wir, dass sich das Modell selbst verstärkt?
Wenn Produktionsdaten zurück ins Training fließen, entsteht eine Rückkopplungsschleife. Bei Kreditentscheidungen: Ein Modell lehnt bestimmte Gruppen ab → weniger Daten von diesen Gruppen → lernt dass diese Gruppen "schlechte Kunden" sind. Wer bricht diese Schleife?

Ansätze — was sich abzeichnet

Drei Muster zeichnen sich in der KB ab. Keine fertigen Lösungen, sondern beobachtbare Ansätze — mit ihren Voraussetzungen und Risiken. Die meisten Organisationen landen im Hybrid, aber selten bewusst.

Zentral: Datenplattform (Databricks & Co.)

Wenn Daten bereichsübergreifend genutzt werden müssen

Datenprodukte mit definierten Qualitätsstandards und Eigentümern. Feature Store für reproduzierbares ML. Einheitliches Monitoring, Lineage und Zugriffssteuerung.

Passt zu: Organisationen mit vielen Use Cases, bereichsübergreifender Datennutzung, existierender Data-Engineering-Infrastruktur

Risiko: Hohe Einstiegskosten, Gefahr der Über-Governance, Bürokratie bevor überhaupt ein Use Case läuft

Quelle: Datenprodukte (720 conn), Feature Store (530 conn), AI as Infrastructure (736 conn)

Dezentral: Lokale KI + Federated

Wenn Datenhoheit die Entscheidung erzwingt

Lokale Modelle für sensible Daten. Keine Cloud-Logs, volles Löschrecht. Federated Learning für bereichsübergreifende Modelle ohne Datenteilung. Inference am Edge statt zentral.

Passt zu: Regulierte Branchen, datensensible Use Cases, Unternehmen ohne zentrale Data-Plattform

Risiko: Betriebskosten nicht unterschätzen, weniger Modellvielfalt, braucht lokale Expertise

Quelle: Lokale KI als Datenschutz-Lösung (739 conn), Federated Network AI Adoption (312 conn)

Hybrid: Bewusste Mischung

Die meisten Unternehmen landen hier — aber selten bewusst

Sensible Daten in lokalen Modellen (OS, self-hosted). Nicht-sensible Workloads per API (Hub oder Frontier). Gesteuert durch eine Datenklassifikation die KI-spezifisch ist — und durch ein klares Routing: welcher Use Case darf welche Umgebung nutzen?

Passt zu: Die meisten Organisationen mit gemischten Anforderungen

Risiko: Braucht klare Regeln und Durchsetzung — sonst entsteht Chaos statt Kontrolle

Quelle: DSGVO-konforme KI-Referenzarchitektur (KB), Stack-Layer (63 conn)

Wo das Thema auftaucht

Data Governance für KI ist kein isoliertes Thema. Es hängt mit fast allen anderen Themenseiten zusammen — mal als Voraussetzung, mal als Konsequenz, mal als blinder Fleck.

KI-Ökosystem

Die Plattformfrage ist eine Data-Governance-Entscheidung: Welche Daten dürfen in welche Umgebung (OS, Hub, Frontier)?

Zur Seite →

Open Source KI

Lokale Modelle und Self-Hosting sind die dezentrale Antwort auf Data-Governance-Anforderungen.

Zur Seite →

AI Governance

Die übergreifende Governance-Perspektive: EU AI Act, Hochrisiko-Klassifikation, Haftungsfragen — Data Governance ist ein Teil davon.

Zur Seite →

AI-native Organisation

Das Operating Model entscheidet über Data Governance: Wer managed die Datenplattform? Wer hat das Mandat?

Zur Seite →

KI-Haftung (in Planung)

Haftungsfragen für KI-Entscheidungen — wer trägt die Verantwortung wenn Datenqualität zu Fehlentscheidungen führt?

In Planung

KI-Kompetenz (in Planung)

Wer in der Organisation versteht was in den Daten steckt — und wer sollte es verstehen?

In Planung
Ralf Kruse

Diese Seite lebt

Ich betreibe seit 2025 eine systematische Knowledge Base zum Thema KI in Organisationen. Diese Seite entsteht aus der Analyse von über 135 Data-Governance-relevanten Konzepten im Netzwerk. Ich sammle, strukturiere, frage — aber ich habe nicht alle Antworten.

Datenbasis: AI-Org Knowledge Base mit 3.257 Nodes, Stand Juni 2026. Quellen umfassen Podcast-Transkripte, Research-Papers, Blog-Artikel und juristische Analysen zu Data Governance, DSGVO, EU AI Act, Shadow AI und KI-Compliance.

Update-Rhythmus: Quartalsweise. Nächste Aktualisierung: August 2026.

Fehlt eine Perspektive? Ein Fallbeispiel? Eine dringende Frage? Schreib mir — ich baue die Seite weiter.

Haftungsausschluss: Alle Angaben ohne Gewähr. Rechtliche Einschätzungen ersetzen keine anwaltliche Beratung. Diese Seite ist ein Diskussionsbeitrag, keine Rechtsauskunft.