Direkt zum Inhalt wechseln
pexels-jan-rune-smenes-reite-221584-3207536

Data‑Governance‑Serie Teil 1 — Der Irrtum der Datenraffinerie

Benjamin Kettner

Link kopieren

Link kopiert

Ich kann gar nicht mehr zählen, wie oft ich gehört habe, Daten seien „das Öl des 21. Jahrhunderts.“ Kaum eine Diskussion über Daten oder KI kommt ohne diese Floskel aus – meist gefolgt von der Forderung, alles solle „data‑driven“ werden. Ich halte den Vergleich für irreführend und zögere daher, die Schlussfolgerung blind zu übernehmen.

Der Mythos

Stellen Sie sich eine Raffinerie vor, die wissentlich verschmutztes Rohöl verarbeitet, das Produkt verwässert oder Leckagen hinnimmt. Oder eine Raffinerie, die ihr Öl kostenlos an Dritte gibt, nur weil diese versprechen, daraus Gold zu machen. Genau dieses Verhalten beobachten wir in vielen Unternehmen beim Umgang mit Daten: Daten werden verschmutzt, gehen verloren oder werden unkontrolliert weitergegeben – oft im Glauben, KI würde danach alles richten.

Solche Versprechen platzen regelmäßig, nicht nur bei kleinen Startups. Im Februar 2023 lieferte Googles Bard‑Demo eine faktisch falsche Aussage zur Geschichte der Exoplanetenfotografie; der Fehler führte zu spürbaren Kursreaktionen bei Alphabet (siehe CNN). Kleinere Fehler wie dieser können bei kundenseitigen Anwendungen erheblichen Schaden anrichten.

Die Folgen? Entscheider denken dann oft: „Wir dürfen diese KI‑Tools nicht einsetzen, bevor wir die Datenqualität geprüft haben.“ Das ist richtig – aber die übliche Reaktion bleibt zu häufig die Einführung eines weiteren Tools, statt strukturelle Ursachen anzugehen.

Manifestationen

Ein konkretes Beispiel: Bei einem Kunden existierten mehrere ERP‑ und CRM‑Systeme in verschiedenen Geschäftsbereichen ohne Synchronisation. Derselbe Endkunde war mehrfach mit unterschiedlichen IDs in den Systemen vorhanden. Versucht man nun, mittels Machine‑Learning ein einheitliches Kundenverhalten zu ermitteln, sieht das Modell denselben Menschen als verschiedene Kunden. Ergebnis: verfälschte Analysen und fehlerhafte Entscheidungen.

Die Regel gilt universell: schlechte Eingabedaten führen zu schlechten Modellen oder Berichten. Tools wie Microsoft Purview oder Informatica helfen, Datenflüsse sichtbar zu machen und Fehler zu finden. Sie lösen jedoch nicht das zugrundeliegende Problem. Wenn ein Eingabeformular Buchstaben in Telefonnummern erlaubt, werden Benutzer Buchstaben eingeben. Kein nachgeschaltetes Tool repariert das, nur eine Änderung im Frontend verhindert das Problem dauerhaft.

Als IT‑Profis sind wir naturgemäß „tool‑getrieben“. Werkzeuge lösen viele Probleme schnell. Das erzeugt Befriedigung und führt dazu, für das nächste Problem wieder ein Tool heranzuziehen. Doch häufig bleibt der eigentliche Hebel unberührt: die Prozess‑ und Organisationsursache.

Sinkende Umsätze können an schlechten Entscheidungen liegen – oder daran, dass Berichte falsche Daten zeigen oder die Daten in den Berichten falsch interpretiert werden. Statt die Ursache der fehlerhaften Datenerfassung zu beseitigen, patchen wir die Daten in ETL‑Prozessen. Warum? Weil es leichter ist, einen Datentransformations-Prozess anzupassen als gelebte Arbeitsweisen, Verantwortlichkeiten oder veraltete Benutzeroberflächen zu ändern.

pexels-cottonbro-4480453
Hätte ich nur ein Werkzeug… Foto von cottonbro studio

Ursachen

Hier kommt Data Governance ins Spiel. Nicht als weiteres Tool, sondern als Antwort auf strukturelle Ursachen. Je länger fehlerhafte Prozesse bestehen, desto schwieriger und teurer wird ihre Änderung. Wer Daten sicher und verantwortlich nutzen will, braucht nicht nur technische Lösungen, sondern neue Abläufe zur Überwachung und Behebung von Datenproblemen und klare Verantwortlichkeiten entlang des gesamten Daten‑Lebenszyklus.

Konkrete Maßnahmen reichen von einfachen UI‑Änderungen bis hin zur Neuzuteilung von Verantwortlichkeiten über Organisationsgrenzen hinweg. Kurz: Fix the process, not just the data. Den Prozess am Anfang der Wertschöpfungskette zu reparieren ist immer besser als schlechte Datenqualität später in der Wertschöpfungskette zu reparieren.

Risiken über Qualität hinaus

Daten ungeklärter Herkunft bergen nicht nur Qualitätsrisiken, sondern auch rechtliche und Reputationsrisiken. 2023 berichtete Reuters über Klagen, die OpenAI und andere Unternehmen beschuldigen, Modelle mit urheberrechtlich geschütztem Material trainiert zu haben. Das ist ein gutes Beispiel dafür, dass ungeprüfte Trainingsdaten zu rechtlichen Problemen führen können.

Solche Fälle zeigen, dass Governance nicht bei der Datenerfassung aufhört: Sie muss jede Stelle adressieren, die Daten verarbeitet, verändert, teilt oder weiterverwendet — inklusive externer Lieferanten und Trainingsdaten für KI.

Ein Anfang

Dieser Artikel ist der Auftakt einer kurzen Serie zu Data Governance aus organisatorischer Perspektive. Mein Appell: Warten Sie nicht. Fangen Sie heute an, Ihre Datenqualität und -prozesse zu prüfen:

  • Dokumentieren Sie, welche Daten wo entstehen, wie sie transformiert und wo sie genutzt werden.
  • Finden Sie die Ursachen wiederkehrender Fehler (z. B. missverständliche Formulare, fehlende Validierung, unklare Verantwortlichkeiten).
  • Bilden Sie ein Team aus Stakeholdern, das Verantwortung für Datenqualität übernimmt.
  • Legen Sie einfache, konkrete Maßnahmen fest: Frontend‑Validierungen, eindeutige IDs, Verantwortlichkeiten, SLAs für Datenqualität.

Nächster Artikel

Der nächste Beitrag erklärt, wie Sie eine pragmatische Data‑Governance‑Strategie in Ihrem Unternehmen starten – mit ersten, sofort umsetzbaren Schritten.

Dieser Beitrag ist in etwas ausführlicherer Form in Englischer Sprache auch auf meinem privaten Blog erschienen: https://www.lowlevelnoise.net/data-governance-series-pt1-the-data-refinery-fallacy/index.html

Interessant?

Noch mehr aus unserem Blog