Stand: Juni 2026 · Wird beobachtet · Nächste Aktualisierung: August 2026
Data Governance für KI —
die dringenden Fragen.
Ich versuche zu verstehen, was Data Governance im KI-Kontext eigentlich bedeutet. Nicht "so macht ihr es richtig", sondern: welche Fragen sich verschieben, neue auftauchen — und warum "KI ist nur so gut wie die Daten" allein nicht weiterhilft.
Diese Seite wird aus einer systematischen Knowledge Base gespeist, die Quellen zu Data Governance im KI-Kontext vernetzt. Was hier steht ist kein Endzustand — es ist eine Momentaufnahme einer sich schnell entwickelnden Landschaft. Alle Quellen sind verlinkt.
Juni 2026 · Aus KB-Recherche zu Data-Governance-Konzepten
Fünf Beobachtungen, die mich beschäftigen
„KI ist nur so gut wie die Daten" — der Satz stimmt, aber nicht so wie alle meinen
Er klingt nach einer technischen Wahrheit aus der deterministischen IT-Welt: saubere Daten = saubere Ergebnisse. Aber er verschleiert die eigentliche Governance-Frage: Wer definiert eigentlich "gut genug" — für welchen KI-Use-Case, mit welcher Konsequenz, für wen? Quelle: Analyse des AI-Org-Netzwerks (3.257 Nodes), Data Quality Paradox (KB).
Data Governance und AI Governance überlappen sich — aber kaum jemand spricht darüber
Klassische Data Governance kümmert sich um Qualität, Lineage, Zugriff. AI Governance um Bias, Transparenz, Haftung. Dazwischen liegt eine Grauzone: Trainingsdaten-Provenance, Memorization-Risiko, RAG-Kontextqualität. Beides wird getrennt diskutiert — aber die Aufgaben überlappen sich massiv. Quelle: Data Context Quality (543 conn), Privacy Risks Across the AI Lifecycle (505 conn).
Shadow AI ist kein IT-Problem — es ist ein strukturelles Datenrisiko
Mitarbeiter nutzen Cloud-KI mit Unternehmensdaten, ohne dass IT oder Compliance es wissen. Verbote erzeugen das Problem nicht, sie verschärfen es — genau wie bei Shadow-IT. Die Governance-Frage: Wie bekommen wir Transparenz über die Datenflüsse, ohne die Nutzung zu verhindern? Quelle: Shadow-KI in deutschen Unternehmen (KB), CSA-Monoculture-Risk-Report.
Die Zentrale-vs.-Dezentral-Debatte lenkt von der eigentlichen Frage ab
Die Frage ist nicht "Plattform oder nicht?", sondern "Welche Daten unter welchen Regeln in welche Umgebung?" Eine DSGVO-konforme KI-Referenzarchitektur trennt sensible von nicht-sensiblen Datenzonen — und das ist eine Governance-Entscheidung, keine Architekturfrage. Quelle: DSGVO-konforme KI-Referenzarchitektur (KB), Sechs Stack-Layer (63 conn).
Die spannendsten Erkenntnisse liegen nicht bei den Lösungen, sondern bei den unbequemen Fragen
Je mehr ich in der Knowledge Base suche, desto klarer wird: Zu Data Governance im KI-Kontext gibt es viele Konzepte — aber kaum jemand stellt die Verbindung zwischen Datenqualität und Organhaftung her. Vielleicht ist genau das die Lücke, die wir zuerst verstehen sollten. Quelle: AI-Org KB Netzwerkanalyse zu Data-Governance-Konzepten (135 relevante Konzepte).

„Der Satz ,KI ist nur so gut wie die Daten' ist der meistzitierte Governance-Satz überhaupt — und gleichzeitig der irreführendste. Er klingt nach einer technischen Wahrheit, aber er verschleiert die eigentliche Frage: Wer definiert eigentlich, was ,gut genug' bedeutet? Und wer haftet, wenn die Antwort falsch war? Das ist keine Data-Engineering-Frage mehr. Das ist eine Führungsfrage."
Ralf Kruse, EnableChange — seit 2009 in der Organisationsentwicklung
Daten spielen eine andere Rolle
In der klassischen IT sind Daten Rohstoff: lagern, bereinigen, abfragen. Im KI-Kontext werden Daten zu etwas anderem — und jede Rolle hat andere Governance-Implikationen.
Quellen aus der AI-Org Knowledge Base (3.257 Nodes, Juni 2026).
Training
Was das Modell gelernt hat
Klassische Trainingsdaten — aber mit neuen Risiken: Memorization (das Modell "merkt" sich sensitive Daten), Bias (verstärkt Ungleichgewichte aus der Stichprobe). Wer garantiert die Herkunft? Wer haftet bei falschen Entscheidungen basierend auf Trainingsdaten?
Quelle: Privacy Risks Across the AI Lifecycle (505 conn), Bias-Konzepte (KB)
Kontext / RAG
Was das Modell gerade weiß
Eigene Dokumente, die per Retrieval in den Prompt eingebettet werden. Die Qualität des Outputs hängt direkt von der Kontextqualität ab — Frische, Vollständigkeit, semantische Passung. Data Governance und AI Governance überlappen sich hier: Qualität, Herkunft, semantische Bedeutung.
Quelle: Data Context Quality as AI Performance Multiplier (543 conn)
Produkt
Wiederverwendbare Daten-Assets
Daten werden nicht mehr für einzelne Use Cases aufbereitet, sondern als Produkte mit definierten Qualitätsstandards, Eigentümern und SLAs. Der Data Analyst wird zum AI Steward. Voraussetzung: bereichsübergreifende Governance.
Quelle: Datenprodukte ersetzen Use-Case-Entwicklung (720 conn)
Feedback-Loop
Was das Modell neu lernt
Produktionsdaten fließen zurück ins Training. Was passiert, wenn das Modell sich selbst verstärkt? Wenn Nutzerfeedback das Modell in eine falsche Richtung lenkt? Wer überwacht die Schleife?
Quelle: The ML Lifecycle Begins at Deployment (575 conn)
Synthetischer Output
KI erzeugt Daten für KI
Modelle generieren Trainingsdaten für andere Modelle. Das Paradox: Je mehr KI-generierte Daten im Umlauf sind, desto wertvoller werden menschliche, nicht-synthetische Daten. Wer trackt die Qualität synthetischer Daten?
Quelle: Das Paradox synthetischer Trainingsdaten (542 conn)
Governance-Grenze
Welche Daten das Unternehmen verlassen
Cloud-KI bedeutet: Logs beim Drittanbieter, Löschrechte nicht durchsetzbar. Lokale KI: volle Kontrolle, aber Betriebskosten. Wer entscheidet, welche Daten in welche Umgebung dürfen? Der Sechs-Layer-Entscheidungsrahmen beginnt hier: Layer 1 = Data/Residency.
Quelle: Lokale KI als Datenschutz-Lösung (739 conn), Stack-Layer (63 conn)
Data Governance — was dazukommt
Die klassischen Data-Governance-Aufgaben bleiben bestehen: Datenqualität, Lineage, Zugriffskontrolle, Klassifikation, Retention. Aber sie reichen nicht mehr. Acht neue Aufgabenfelder entstehen — und sie liegen genau in der Grauzone zwischen Data Governance und AI Governance.
Aus der AI-Org KB: 135 Data-Governance-relevante Konzepte identifiziert, davon 8 mit direkter KI-Schnittstelle.
Trainingsdaten-Provenance
Woher kommen die Daten wirklich? Wer hat sie erfasst, gelabelt, kuratiert? Das ist mehr als klassische Lineage — es geht um rechtliche Herkunft, Repräsentativität, Einwilligung.
Quelle: Privacy Risks Across the AI Lifecycle (505 conn)
Memorization-Risiko
DSGVO-Löschrecht ≠ Löschbarkeit aus trainierten Modellen. Wenn personenbezogene Daten im Training verwendet wurden: Kann das Modell sie reproduzieren? Wie weist man nach, dass sie nicht mehr "drin" sind?
Quelle: Privacy Risks Across the AI Lifecycle (505 conn)
RAG-Governance
Welche Kontext-Dokumente dürfen ans Modell? Wer kontrolliert Frische, Version, Autorisierung? Ein veraltetes oder falsches Dokument im Kontext = falsche Antwort — aber wer haftet?
Quelle: Data Context Quality as AI Performance Multiplier (543 conn)
Datenklassifikation für KI
Die alte Einteilung reicht nicht: "öffentlich / intern / vertraulich / geheim". Es braucht eine KI-spezifische Klassifikation: "darf in Cloud-Frontier-Modell / darf in lokales OS-Modell / darf nicht in KI-System".
Quelle: DSGVO-konforme KI-Referenzarchitektur (KB)
Shadow-AI-Daten
Mitarbeiter kopieren Unternehmensdaten in private Cloud-KI-Tools. Das Risiko ist nicht nur Datenschutz, sondern auch: diese Daten trainieren Modelle von Drittanbietern, ohne dass das Unternehmen Einfluss hat.
Quelle: Shadow-KI in deutschen Unternehmen (KB), CSA-Monoculture-Report
Synthetische Daten-Governance
KI-generierte Daten sind eine neue Datenklasse. Sie brauchen eigene Qualitätskriterien, Herkunftsnachweise und Nutzungsregeln — sonst entstehen intransparente Abhängigkeiten.
Quelle: Das Paradox synthetischer Trainingsdaten (542 conn)
Zugriffskontrolle für Agenten
KI-Agenten handeln autonom und schnell. Rollenbasierte Zugriffskontrolle (RBAC) ist zu grob. Wer regelt, auf welche Daten ein Agent zugreifen darf — und wer protokolliert das?
Quelle: Aufgabenbasierte Zero-Trust-Zugriffskontrolle (KB)
Rechtliche Gemengelage
DSGVO + AI Act + Data Act + NIS2 ergeben fragmentierte Zuständigkeiten. Der Datenschutzbeauftragte allein kann das nicht mehr abdecken. Neue Rollen entstehen: Data & AI Legal Officer.
Quelle: Data und AI Legal Officer (KB), Integriertes Datenschutz- und KI-Compliance-System (KB)
Die offenen Fragen
Die spannendsten Erkenntnisse aus der Recherche liegen nicht bei den Lösungen, sondern bei den Fragen, die niemand beantwortet. Vielleicht sind das genau die Punkte, die wir zuerst klären sollten — bevor wir in Plattform-Entscheidungen oder Architektur-Debatten einsteigen.
Wer definiert "gut genug"?▾
Wer entscheidet, welche Daten in welche Umgebung dürfen?▾
Wer haftet, wenn Datenqualität zu KI-Fehlentscheidungen führt?▾
Wer hat das Mandat für Data Governance im KI-Kontext?▾
Wie verhindern wir, dass sich das Modell selbst verstärkt?▾
Ansätze — was sich abzeichnet
Drei Muster zeichnen sich in der KB ab. Keine fertigen Lösungen, sondern beobachtbare Ansätze — mit ihren Voraussetzungen und Risiken. Die meisten Organisationen landen im Hybrid, aber selten bewusst.
Zentral: Datenplattform (Databricks & Co.)
Wenn Daten bereichsübergreifend genutzt werden müssen
Datenprodukte mit definierten Qualitätsstandards und Eigentümern. Feature Store für reproduzierbares ML. Einheitliches Monitoring, Lineage und Zugriffssteuerung.
Passt zu: Organisationen mit vielen Use Cases, bereichsübergreifender Datennutzung, existierender Data-Engineering-Infrastruktur
Risiko: Hohe Einstiegskosten, Gefahr der Über-Governance, Bürokratie bevor überhaupt ein Use Case läuft
Quelle: Datenprodukte (720 conn), Feature Store (530 conn), AI as Infrastructure (736 conn)
Dezentral: Lokale KI + Federated
Wenn Datenhoheit die Entscheidung erzwingt
Lokale Modelle für sensible Daten. Keine Cloud-Logs, volles Löschrecht. Federated Learning für bereichsübergreifende Modelle ohne Datenteilung. Inference am Edge statt zentral.
Passt zu: Regulierte Branchen, datensensible Use Cases, Unternehmen ohne zentrale Data-Plattform
Risiko: Betriebskosten nicht unterschätzen, weniger Modellvielfalt, braucht lokale Expertise
Quelle: Lokale KI als Datenschutz-Lösung (739 conn), Federated Network AI Adoption (312 conn)
Hybrid: Bewusste Mischung
Die meisten Unternehmen landen hier — aber selten bewusst
Sensible Daten in lokalen Modellen (OS, self-hosted). Nicht-sensible Workloads per API (Hub oder Frontier). Gesteuert durch eine Datenklassifikation die KI-spezifisch ist — und durch ein klares Routing: welcher Use Case darf welche Umgebung nutzen?
Passt zu: Die meisten Organisationen mit gemischten Anforderungen
Risiko: Braucht klare Regeln und Durchsetzung — sonst entsteht Chaos statt Kontrolle
Quelle: DSGVO-konforme KI-Referenzarchitektur (KB), Stack-Layer (63 conn)
Wo das Thema auftaucht
Data Governance für KI ist kein isoliertes Thema. Es hängt mit fast allen anderen Themenseiten zusammen — mal als Voraussetzung, mal als Konsequenz, mal als blinder Fleck.
KI-Ökosystem
Die Plattformfrage ist eine Data-Governance-Entscheidung: Welche Daten dürfen in welche Umgebung (OS, Hub, Frontier)?
Zur Seite →Open Source KI
Lokale Modelle und Self-Hosting sind die dezentrale Antwort auf Data-Governance-Anforderungen.
Zur Seite →AI Governance
Die übergreifende Governance-Perspektive: EU AI Act, Hochrisiko-Klassifikation, Haftungsfragen — Data Governance ist ein Teil davon.
Zur Seite →AI-native Organisation
Das Operating Model entscheidet über Data Governance: Wer managed die Datenplattform? Wer hat das Mandat?
Zur Seite →KI-Haftung (in Planung)
Haftungsfragen für KI-Entscheidungen — wer trägt die Verantwortung wenn Datenqualität zu Fehlentscheidungen führt?
In PlanungKI-Kompetenz (in Planung)
Wer in der Organisation versteht was in den Daten steckt — und wer sollte es verstehen?
In Planung
Diese Seite lebt
Ich betreibe seit 2025 eine systematische Knowledge Base zum Thema KI in Organisationen. Diese Seite entsteht aus der Analyse von über 135 Data-Governance-relevanten Konzepten im Netzwerk. Ich sammle, strukturiere, frage — aber ich habe nicht alle Antworten.
Datenbasis: AI-Org Knowledge Base mit 3.257 Nodes, Stand Juni 2026. Quellen umfassen Podcast-Transkripte, Research-Papers, Blog-Artikel und juristische Analysen zu Data Governance, DSGVO, EU AI Act, Shadow AI und KI-Compliance.
Update-Rhythmus: Quartalsweise. Nächste Aktualisierung: August 2026.
Fehlt eine Perspektive? Ein Fallbeispiel? Eine dringende Frage? Schreib mir — ich baue die Seite weiter.
Haftungsausschluss: Alle Angaben ohne Gewähr. Rechtliche Einschätzungen ersetzen keine anwaltliche Beratung. Diese Seite ist ein Diskussionsbeitrag, keine Rechtsauskunft.