Data Science (Datenwissenschaft) ist eines der „heißesten“ Themen unserer Zeit. Der Harvard Business Review kürte den Job des Data Scientist als attraktivsten Beruf des 21. Jahrhunderts. Warum ist das so? Und was unterscheidet Data Science vom klassischen Thema Business Intelligence? Diese Fragen möchte ich nachfolgend beantworten und aufzeigen, warum die beiden Themen zunehmend zusammenwachsen.

Ursprünglich aus dem Controlling erwachsen, meint Business Intelligence (BI) im Wesentlichen die zentrale Bereitstellung von Daten und deren Visualisierung. (Theoretiker mögen hier widersprechen, die unter BI „die Gesamtheit von Managementgrundlagen wie beispielsweise Wissensmanagement, Customer-Relationship-Management oder Balanced Scorecard, die bei einem prozessorientierten Begriffsverständnis auch die permanente Datenpflege und Anpassung an ein sich veränderndes Umfeld“ verstehen [WIKIPEDIA]. In der Praxis hingegen hat sich neben der „Automatisierung des Controllings, des Berichtswesens, der Planung und der Vorschau sowie Markt- und Kundenanalyse“ [WIKIPEDIA] häufig verallgemeinert auf die Bereitstellung von Daten und deren Visualisierung.)

In den Anfängen (Anfang der 1990’er Jahre) stand dabei das Thema „Data Warehousing“ im Vordergrund, also das zentrale Vorhalten wichtiger Unternehmensdaten aus potenziell unterschiedlichen operativen Systemen. Üblicherweise wurden hierzu sogenannte ETL-Jobs erstellt, die nächtlich Daten aus den operativen Systemen extrahieren (E), in ein gewünschtes Zielformat transformieren (T) um die Daten abschließend in ein zentrales Datenlager, das Data Warehouse, zu laden (L). Mit der Verfügbarkeit der Daten und dem Siegeszug von Arbeitsplatzrechnern hat zunehmend die Visualisierung und Auswertung der Daten an Bedeutung gewonnen. Neben dem traditionellen Berichtswesen haben sich interaktive Berichte und Dashboards etabliert (Cockpits, auf denen üblicherweise unterschiedliche Kennzahlen dargestellt werden) und zunehmend eine „Self-Service“ Funktionalität für die Anwender: Mitarbeiter aus den Fachabteilungen können eigene Daten mit Hilfe intuitiver Werkzeuge selbst visualisieren und zu einem gewissen Grad analysieren, bspw. Kennzahlen im Zeitablauf vergleichen, um aus selbst gewählten Visualisierungen Erkenntnisse zu gewinnen.

Charakteristisch für Business Intelligence ist, dass zentralisiert entschieden wird, welche Daten in welcher Form bereitgestellt werden um den Wünschen der „Kunden“, den eigentlichen Nutzer der Daten und ihrer Auswertung, gerecht zu werden. Der Fokus liegt insofern auf der Wiederholbarkeit; schwerpunktmäßig werden Daten bereitgestellt, die wiederkehrend und von vielen Anwendern benötigt werden. Erst nach einer positiven Entscheidung werden die entsprechenden Datenquellen an das zentrale Data Warehouse angebunden, die Daten strukturiert und den Anwendern bereitgestellt. Die Nutzer verwenden die Daten anschließend in ihren Berichten, Dashboards und im Self-Service um zu analysieren, was für ihren Kontext relevant ist. Der Betrachtungswinkel ist insofern rückblickend (wenn auch natürlich häufig eine Grundlage für Weichenstellungen für die Zukunft). Schwerpunktmäßig geht es beim Thema Business Intelligence um die zentrale Bereitstellung von geeignet visualisierten Daten.

„Data Science“ hingegen „bezeichnet die Extraktion von Wissen aus Daten“ [WIKIPEDIA]. „Der Job eines Data Scientist besteht darin, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten, die das Unternehmen befähigen, effizienter zu arbeiten.“ [WIKIPEDIA] Im Gegensatz zur Business Intelligence mit dem Fokus der Bereitstellung visualisierter Daten, liegt hier die Hauptherausforderung folglich- im eigentlichen Erkenntnisgewinn, dem Ergebnis der Analyse von Daten.

Ein Data Science Projekt beginnt üblicherweise mit einer Fragestellung oder Aufgabe, z. B. der konkreten Aufgabe, möglichst gute Wartungszeiten für eine Maschine einzuplanen um ein Verschleißteil rechtzeitig vor dem Ausfall (mit Konsequenz eines ungeplanten Maschinenstillstands) zu wechseln („Predictive Maintenance“). Es schließen sich Phasen der Datenbeschaffung, der Erkundung der Daten und des Erstellens eines geeigneten Modells an. Diese Phasen werden üblicherweise nicht einmalig sequentiell durchlaufen sondern mehrfach, zum Beispiel könnte bei der Erkundung von Daten festgestellt werden, dass zusätzliche Daten benötigt werden. Data Scientist nutzen Verfahren wie die lineare Regression, Zeitreihenanalyse, Konfidenzintervalle, Entscheidungsbäume, Bayes-Klassifikator, Nächste-Nachbarn-Klassifikation oder auch „Deep Learning“. Im Gegensatz zu Business Intelligence, wo der Strukturierung der Daten ein sehr hoher Stellenwert beigemessen wird, sind Data Scientist hier bedeutend pragmatischer: wichtig ist primär, dass sie verfügbar sind. Alles Weitere wie z. B. eine Transformation erfolgt im Zweifelsfall im Rahmen des Projekts.

Data Science ist projektorientiert mit dem Charakter der Einmaligkeit. Im Rahmen eines Projekts wird eine Fragestellung untersucht, eine Erkenntnis (z. B. in Form eines Modells) gewonnen und anschließend, nach Auslieferung, das Modell betrieben und mglw. an die Gegebenheiten angepasst (Drift of Concept / Change of Concept). Je mehr Daten für das Projekt möglichst unverarbeitet zur Verfügung stehen, desto besser; im Vorfeld ist nicht klar, für welches Projekt welche Daten benötigt werden. Zur Anwendung kommen komplexe statistische Verfahren und Algorithmen, meist mit den Freiheiten einer (für die Domäne geeigneten oder sogar hierauf spezialisierten) Programmiersprache wie R oder Python. Immer häufiger sind semi-strukturierte oder unstrukturierte Daten Gegenstand der Analyse, z. B. Protokolle der Webseitenbenutzung („Log-Files“), E-Mails, Bilder, Videos oder auch Geräusche (z. B. Geräusche einer Maschine). Das Ergebnis eines Data Science Projekt kann ein Modell sein, das anschließend in den produktiven Betrieb überführt werden muss. In unserem Predictive Maintenance Beispiel muss das fertige Modell mit realen Maschinendaten „live“ gefüttert werden, so dass es im laufenden Betrieb Wartungszeiten vorschlägt.

In der folgenden Tabelle sind einige Charakteristika von Business Intelligence und Data Science nochmal zusammengestellt, wobei der Fokus auf den Unterschieden liegt.

Business Intelligence Data Science
Schwerpunkt Bereitstellen von (visualisierten) Daten Neue Erkenntnisse durch neue Fragen
Hauptaufgabe Die richtigen Daten bereitstellen Modelle finden (durch Anwendung der richtigen Algorithmen auf die richtigen Daten)
Blickwinkel Rückblickend Vorausblickend
Fokus Berichte, Dashboards, Self Service Analysen Muster, Korrelationen, Modelle
Datenquellen Wenige (wichtige Unternehmenssoftware), wenig Änderung Im Vorfeld unbekannt, bedarfsgerecht, vielfach auch externe Quellen
Datenspeicher Data Warehouse Data Lake (im Grunde agnostisch: Hauptsache, die Daten sind da).
Datenmodell Festes Schema (vorverarbeitete Daten) im Data Warehouse Rohdaten (bspw. im Data Lake), Schema „on read“
Datentypen Vorrangig strukturierte Daten Strukturierte, semi-strukturierte und unstrukturierte Daten (bspw. Bilder)
Reifegrad Gereiftes, etabliertes Thema Junges, „hippes“ Thema
Tools Tableau, Qlik, SAS, Jaspersoft, MicroStrategy, … R, RapidMiner, KNIMW, IBM, Alteryx, …
Charakter Bereitstellung von (visualisierten) Daten, die dauerhaft benötigt werden Klassische Projektarbeit, insofern jeweils Einmaligkeit (mit ggf. inkrementellen Anpassungen)
Liefer-gegenstand Dashboards, Berichte, Alerts / Benachrichtigungen Sehr unterschiedlich, z. B. nahe-Echtzeit System (bspw. für Predictive Maintenance oder Erkennung von Warenkorbabbrechern) oder auch Dashboard (z. B. bei Assoziationsanalyse)

 

Trotz der erheblichen Unterschiede existieren natürlich auch Gemeinsamkeiten zwischen den beiden Themen. Insbesondere bewegen sich die Welten beim Thema Datenmanagement aufeinander zu, denn auf Dauer möchte ist es wenig sinnvoll, einen Data Lake hermetisch vom Data Warehouse zu trennen. Genauso können Data Scientists von ETL Werkzeugen und Jobs profitieren, die bereits für das Befüllen des Data Warehouses erstellt wurden. Die beiden Themen eint, dass sie Zugriff auf Daten aus operativen Systemen benötigen, wenn auch in unterschiedlicher Verdichtung, Qualität und Aktualität. Gewisse Aspekte und Systeme des Datenmanagements, z. B. Datenqualität, Stammdatenmanagement, Metadatenmanagement oder Datenintegration und -transformation, kommen in beiden Themen zum Einsatz, hier empfiehlt sich insofern eine übergreifende Sichtweise und auch Vereinheitlichung der Sprache.

Neben dem Datenmanagement findet man immer häufiger auch auf der Ebene der Gesamtarchitektur Konzepte für eine engere Kopplung. Viele Bemühungen zielen darauf ab, das klassische Data Warehouse mit den Vorteilen eines Data Lake zu kombinieren. Häufig werden dabei Datenzonen aufgebaut, die sich in Geschwindigkeit, Verarbeitungsstatus und Strukturierung der Daten unterscheiden, wobei Daten auch von Zone zu Zone fließen. Bei einem solchen Ansatz kann dann eine äußere Zone den Erfordernissen von Data Science genügen (und eher den Charakter eines Data Lake mit unstrukturierten Rohdaten aufweisen), eine innere Zone hingegen die strukturierten, transformierten Datenstrukturen eines Data Warehouse abbilden. Auch der immer weiter verbreitete Ansatz des Data Vault ermöglicht in der aktuellen Version 2.0 diese Architektur. Ebenfalls an Bedeutung gewinnen die Virtualisierung und die Idee eines „logischen“ Data Warehouses.

Abschließend ist festzustellen, dass erfolgreiche, datengetriebene Unternehmen sowohl Business Intelligence als auch Data Science benötigen und einsetzen. Es ist wichtig, den Unterschied zu erkennen und je nach Aufgabenstellung zur richtigen Methode zu greifen. Im Bereich Business Intelligence ist die Zielsetzung, Mitarbeiter in der Breite der Organisation mit den richtigen Daten in der richten Visualisierung zu erreichen, um sie bei ihrer regulären Arbeit zu unterstützen. Im Bereich Data Science laufen hingegen Projekte mit dem Ziel, neue Erkenntnisse zu gewinnen und die Wettbewerbsfähigkeit zu stärken, sei es durch Innovationen oder durch Effizienzverbesserungen. Beide Themen verbindet der hohe Stellenwert, den Daten spielen. Beide Themen sind verschiedene Facetten eines datengetriebenen Unternehmens.