Data Cleaning: Fallstricke und Lösungen

„Dirty Data“: Was es ist und woher sie kommt

„Dirty Data“ kann viele Formen annehmen – und ebenso viele Ursachen haben.
In den meisten Fällen sind Daten schon bei der Erfassung fehlerhaft oder unvollständig.

Stell Dir vor, zwei Mitarbeitende erfassen den Bestand eines Schraubenlagers:
John misst jede Schraube exakt mit einem Messschieber.
Bob dagegen wiegt sie und notiert die Länge in Zoll – ohne die Einheit anzugeben.
Beide tragen ihre Werte in dasselbe Formular ein.

Das Ergebnis? Uneinheitliche, widersprüchliche und teilweise unvollständige Daten.
Wenn sie außerdem dieselbe Schachtel doppelt erfassen, kommen Inkonsistenzen hinzu – und wenn eine Kiste hinter dem Regal verschwindet, sind die Daten zusätzlich unvollständig.

Fehlerhafte Daten entstehen aber nicht nur durch manuelle Eingaben:

Tippfehler, uneinheitliche Schreibweisen oder falsche Werte (z. B. negative Preise)
Systemänderungen oder die Zusammenführung von Datenbanken, bei denen Formatkonflikte auftreten
Veraltete Datensätze, etwa durch Umzüge oder geänderte Kontaktdaten in CRM-Systemen

Warum fehlerhafte Daten gefährlich sind

Die Auswirkungen schlechter Datenqualität werden oft erst sichtbar, wenn sie für Analysen oder Machine Learning verwendet werden.
Ein Modell ist nur so gut wie die Daten, auf denen es trainiert wurde – und schlechte Daten führen zwangsläufig zu schlechten Ergebnissen.

Viele Unternehmen unterschätzen das Risiko:
Etwa 25 % der CRM-Daten sind laut Studien fehlerhaft oder veraltet.
Wenn ein Viertel Deiner Daten ungenau ist, verzerrt das nicht nur Analysen – es kann ganze Geschäftsentscheidungen beeinflussen.

Fehlerhafte Datensätze sind nicht nur nutzlos, sie ziehen auch korrekte Daten mit herunter.
Im Machine Learning gilt: Nur wenn die sauberen Daten die fehlerhaften deutlich überwiegen, kann ein Modell zuverlässig lernen.

Methoden zur Datenbereinigung

Die Datenbereinigung kann automatisiert oder manuell erfolgen – abhängig von Datenmenge, Struktur und verfügbarer Expertise.
Die folgenden Methoden helfen Dir dabei, Fehler zu erkennen und nachhaltig zu beheben.

Spaltenebene: Daten-Profiling

Das Daten-Profiling analysiert einzelne Datenfelder und prüft, ob Einträge mit einem „intakten“ Muster übereinstimmen.
Das klingt komplex, ist aber oft einfach: Du zählst zum Beispiel, wie oft bestimmte Werte vorkommen.

Wenn Du 4.421 Einträge „Mercedes“ findest, 4.823 „Audi“, aber auch 3-mal „Cermedes“ und 1-mal „Aidu“, wird klar, wo Tippfehler entstanden sind.

Dieser Ansatz funktioniert auch für Zahlenwerte – etwa, um negative Preise oder Datumsfehler zu erkennen.
Der Vorteil: Du brauchst kein tiefes Systemwissen, um Abweichungen zu finden.
Tipp: Lege Regeln für zulässige Wertebereiche oder Muster fest, um Fehler systematisch zu vermeiden.

Tabellenebene: Integrität prüfen

Über einzelne Spalten hinaus kannst Du auf Tabellenebene Integritätsregeln anwenden.
Beispiel: In einer Bestell-Tabelle darf das Lieferdatum nie vor dem Bestelldatum liegen.

Solche Regeln kannst Du dauerhaft einführen, sodass neue Fehler automatisch erkannt werden.
Das erfordert zwar mehr Aufwand bei der Einrichtung, bietet Dir aber langfristige Datenqualität und Konsistenz.

Datenbankebene: Beziehungen zwischen Tabellen

Wenn Deine Tabellen sauber sind, kannst Du einen Schritt weitergehen:
Prüfe, ob die Beziehungen zwischen den Tabellen stimmen.

Ein klassisches Beispiel:
Jede Produktnummer in einer Bestelltabelle sollte mit einem Eintrag in der Produkttabelle verknüpft sein.
Fehlt dieser Zusammenhang, hast Du entweder fehlerhafte Bestelldaten oder unvollständige Produktinformationen.

Diese Referenzprüfungen sind essenziell, um Datenbanken stabil und konsistent zu halten.

Die passenden Werkzeuge

Tools für Data Cleaning lassen sich in drei Hauptgruppen einteilen:

Standalone-Tools (z. B. OpenRefine):
- Importieren Daten aus verschiedenen Quellen
- Führen Bereinigungen in einer Kopie der Daten durch
- Sind flexibel, aber oft auf einzelne Tabellen beschränkt
Integrierte Tools (z. B. Informatica, SAP Data Services):
- Sind direkt ins Unternehmenssystem eingebettet
- Erlauben tabellenübergreifende Bereinigungen
- Bieten hohe Integration, aber weniger Anpassungsmöglichkeiten
Kundenspezifische Lösungen:
- Werden individuell entwickelt
- Nutzen Domänenwissen und spezifische Geschäftslogik
- Decken komplexe Anforderungen besser ab und fördern Prozessverbesserungen

Große Datenqualitätsprojekte decken dabei oft Schwachstellen in der Datenerfassung auf – und liefern wertvolle Impulse, wie Du Deine Prozesse verbessern kannst.

Fazit: Saubere Daten = bessere Entscheidungen

Wenn Du aus Deinen Daten echten Mehrwert ziehen willst, musst Du ihre Qualität aktiv managen.
Fehlerhafte Daten führen zu falschen Erkenntnissen, unzuverlässigen Modellen und schlechten Entscheidungen.

Data Cleaning ist kein einmaliger Akt, sondern ein fortlaufender Prozess.
Es lohnt sich, Zeit und Ressourcen in klare Erfassungsregeln, Prüfmechanismen und Automatisierung zu investieren.

So machst Du Datenqualität zu einem festen Bestandteil Deiner Datenstrategie – und schaffst die Grundlage für fundierte, datengetriebene Entscheidungen.

Wie gehst Du mit der Datenqualität in Deinem Unternehmen um?
Hast Du bereits Prozesse oder Tools für Data Cleaning im Einsatz – oder planst Du gerade den Einstieg?