Das Problem mit der Datenqualität

Schlechte Qualität ist schlecht für das Geschäft. Was für Güter und Dienstleistungen gilt, trifft auch auf Daten im Unternehmen zu. In diesem Punkt verhalten sich Daten also nicht anders als andere Assets. Für jede Art von Auswertung, Analysen und Vorhersagen sind unvollständige, nicht kohärente, schlicht fehlerhafte oder verrauschte Daten schädlich. Dass Daten zeitgerecht bereitstehen und auch relevant sind, sei hier einmal unterstellt.

Die Ursache für schlechte (dirty, messy) Daten sind vielfältig und reichen von falschen manuellen Eingaben, ländertypisch unterschiedlichen Schreibweisen und Duplikaten bis hin zu schlecht kalibrierten Sensoren und Übertragungsfehler zum Edge Computer. Und manchmal sind Daten auch nur schlicht veraltet. „Data is always dirtier than we imagine“, stellt Carl Anderson lapidar fest. Das Problem gewinnt zunehmend an Schärfe angesichts explodierender Datenmengen, der Notwendigkeit eines immer schnelleren Erkenntnisgewinns, mächtiger Datensilos und natürlich den gegebenen Grenzen für IT-Investments.

Datenqualität ist gleichermaßen relevant für einfachste Reports, komplexe Analysen zur Vorhersage und Maschinelles Lernen. Im einfachen, operativen Fall führen falsche Lieferanschriften zu erheblichen Kosten in der Logistik und zu Ärger mit Kunden. Zunehmend zentral werden korrekte Daten jedoch für unternehmerische, teilweise automatisierte Entscheidungen. So können falsche Vorhersagen über den Zustand von Maschinen oder die Qualität der Produktion zu erheblichen Folgekosten führen. Und: Mit einer schlechten Datenbasis für die Modellierung eines Empfehlungssystems (recommender engine) lässt sich das Umsatzpotenzial nicht ausschöpfen. Die besten statistischen Verfahren und ML-Modelle performen nicht, wenn sie auf einem unzulänglichen Datenbestand arbeiten. Auch hier gilt: Garbage in, garbage out.

Im Kern stellt sich folglich die Frage, wie sehr Unternehmen ihren Daten vertrauen können (trust level).

Insbesondere im Kontext von Data-Science-Projekten ist eine strikte Qualitätssicherung von Daten unerlässlich. Die Realität beschreibt Thomson Nguyen, Experte für Data Science, mit diesen Worten: “80 % of my time was spent cleaning the data. Better data will always beat better models.”

Fakten und Zahlen

Einige Zahlen von Larisa Bedgood, Spezialistin für Ominichannel-Marketing, veranschaulichen die Bedeutung des Problems. Obzwar aus dem Jahre 2015 dürften die Zahlen weiterhin Geltung haben:

  • 25 % der kritischen Daten in den Fortune 500 Unternehmen dürften fehlerhaft sein
  • nahezu 40% aller Unternehmensdaten sind nicht akkurat genug
  • 92% der befragten Unternehmen gestehen zu, dass ihre Daten nicht gut genug sind
  • 66% der befragten Unternehmen glauben, hieraus Nachteile zu haben.

Nach Bedgood könnten 40 – 50% des IT-Budget und 40 % der operativen Kosten eines Unternehmens langfristig durch eine „Data Quality Initiative“ reduziert werden – wobei sich der Umsatz um 15 – 20 % steigern ließe.

Auch wenn die Daten ein wenig marketinglastig sein mögen, erscheinen die grundsätzlichen Aspekte doch nachvollziehbar.

Data Cleaning als Herausforderung für Data Science Projekte

Data Cleaning setzt gute Domänen-Kenntnis voraus. Es geht stets um die Identifikation von Problemen und die Einleitung geeigneter Gegenmaßnahmen.

Fundamentale Aufgaben bestehen darin:

  • Einzelne Instanzen (Datenreihen) oder Variables bzw. Features (Spalten) zu entfernen, wenn Werte fehlen oder nur wenige Werte vorliegen
  • Instanzen zu entfernen, sofern die Variablen nur eine geringe Varianz aufweisen
  • Duplikate in den Instanzen zu bereinigen
  • fehlende Werte abzuschätzen und einzusetzen (Imputation)
  • Ausreißer zu eliminieren.

Fehlende Daten sind insbesondere für Machine-Learning-Algorithmen häufig ein beträchtliches Problem. Ein populärer Weg für die Abschätzung von guten Näherungswerten führt über pragmatische statistische Abschätzungen. Häufig eine gute Wahl ist auch der k-Nearest-Neighbor-Algorithmus, ein Klassifikationsverfahren, bei dem fehlende Werte unter Berücksichtigung der nächsten (Daten-)Nachbarn kalkuliert werden.

Eine besondere Bedeutung hat die Identifikation und Entfernung von Ausreißer-Daten (Outlier). Datensätze können extreme Werte enthalten, also Werte, die weit außerhalb des erwartbaren Wertebereiches liegen. Was genau „weit” ist, hängt stets von der Domäne ab. Wahrscheinlichkeitsbasierte Methoden zur Identifizierung von Outliern etwa gehen davon aus, dass sich zulässige Daten nur in Bereichen mit einer hohen Wahrscheinlichkeit (in der Definition des stochastischen Models) befinden. Ansätze des maschinellen Lernens nutzen z. B. Klassifikationsverfahren.

Data Cleaning als Basis für Data-Science-Projekte

Data Cleaning ist ein essentieller Arbeitsschritt im Rahmen der Datenvorbereitung. Insbesondere dort, wo es um Data Science geht, ist Data Cleaning von tragender Relevanz.

Grundsätzlich lassen sich die folgenden Arbeitsschritte unterscheiden:

  1. Data Cleaning: Identifizierung und Korrektur von Datenfehlern
  2. Feature Selection: Identifizierung der besonders bedeutsamen Variablen (features) für die Fragestellung
  3. Data Transformation: Veränderung des Formats oder der Struktur von Variablen um Datenkompatibilität zu schaffen
  4. Feature Engineering: Ableitung neuer Daten aus den vorhandenen
  5. Dimensionality Reduction: Projektion eines hochdimensionalen Datensatzes in einen niedrig dimensionaleren Raum.

Nicht ohne Grund steht Data Cleaning hier an erster Stelle: Ohne „saubere“ Daten werden die Folgearbeiten nur bedingt erfolgreiche Ergebnisse erbringen.

Ohne starke Werkzeuge kein effizientes Data Cleaning

Die wenigen, grundsätzlichen Hinweise sollten verdeutlichen, dass Data Cleaning ein wesentliches Element in der Datenkultur eines Unternehmens sein muss. Qualitätssicherung ist unerlässlich, um die statischen und zunehmend „fließenden“ Daten von Clickstreams oder Sensor-Clustern für weitere Analysen vorzubereiten. Um mit Jason Brownlee zu sprechen: „Knowing how to properly clean and assemble your data will set you miles apart from others in your field.“

Es ist offensichtlich, dass manuell ausgerichtete „Reinigungsarbeiten“ spätestens in Zeiten von Realzeit-Anwendungen nicht weit tragen. Daten-zentrische Unternehmen setzen daher schon seit geraumer Zeit auf Automatismen, die intelligente Methoden der Fehleridentifizierung umfassen und integraler Teil von Werkzeugen (Plattformen) für den gesamten Prozess der Datenvorbereitung sind. In dem Maße, wie Daten an Komplexität gewinnen und Vertrauenswürdigkeit unerlässlich wird (trusted data), entwickeln sich auch diese Werkzeuge weiter.