Am 30.1.2020 haben wir im Rahmen der Meetup-Gruppe „Business Intelligence & Analytics Dortmund“ [1] eine Podiumsdiskussion zum Thema „Business Intelligence meets Data Science“ durchgeführt, an der zwei Experten als Vertreter der jeweiligen Fachdisziplin teilgenommen haben und die der Autor dieses Beitrags moderieren durfte. [2] Dieser Blogbeitrag beschreibt den abschließenden zweiten Teil des Gesprächs.

Prof. Dr. Peter Gluchowski leitet den Lehrstuhl für Wirtschaftsinformatik, insb. Systementwicklung und Anwendungssysteme, an der Technischen Universität in Chemnitz und konzentriert sich dort mit seinen Forschungsaktivitäten auf das Themengebiet Business Intelligence. Er beschäftigt sich seit rund 20 Jahren mit Fragestellungen aus dem Bereich Business Intelligence und war lange Jahre im Vorsitz des TDWI Germany e.V., den er mitbegründet hat. [3]

Dr. Martin Schmitz hat in Dortmund Physik studiert, hierzu promoviert und ist seit 2014 bei der Firma RapidMiner Inc. beschäftigt, nimmt dort mittlerweile die Rolle des „Head of Data Science Services“ ein und steht damit in direktem Austausch mit Anwenderunternehmen. RapidMiner wurde von Gartner 2019 zum sechsten Mal in Folge in den Magischen Quadranten für „Data Science and Machine Learning Platforms“ aufgenommen. [4], [5]

Im Folgenden möchten wir einige Aspekte der Diskussion herausgreifen und die Meinung der Experten in komprimierter Form vorstellen. Der Fokus liegt dabei auf dem Ergebnis der Diskussion, nicht darauf, wer was genau gesagt hat. Klarstellend sei betont, dass es sich dabei um persönliche Einschätzungen und Meinungen als Momentaufnahme der Diskussion handelt; viele Fragestellungen des Zusammenwachsens von Business Intelligence und Data Science befinden sich – wie überhaupt die gesamte Landschaft rund um Data & Analytics – weiterhin im Fluss und sind entsprechend kontinuierlichen Veränderungen unterworfen.

Wem gehören denn die Daten, wer ist für diese zuständig?

Die Bedeutung der Daten – und damit einhergehend auch die Frage, wem diese gehören – kann man gar nicht überbetonen. Tatsächlich stellt sich hier häufig die Frage, wer überhaupt genug Daten besitzt bzw. gewinnen kann, um diese vorteilhaft auszuwerten. Gute Beispiele für Unternehmen, die sich darauf verstehen, Daten zu sammeln und zu kapitalisieren sind Facebook und Google.

Hingegen wird es häufig nicht ausreichen, wenn ein mittelständisches Unternehmen zwei Maschinen eines Typs betreibt, um hieraus besondere Erkenntnisse zu gewinnen. Dennoch kann dies für den Hersteller der Maschinen ganz anders aussehen, schließlich verfügt dieser ja über eine deutlich größere installierte Basis. An dieser Stelle stellt sich insofern schnell die Frage, wem die Daten überhaupt gehören und es ist daher auch nicht überraschend, dass aktuell viele Verträge in dieser Hinsicht angepasst werden, um klar zu regeln, wer die Daten besitzt bzw. benutzen kann.

Die Frage nach der Zugehörigkeit der Daten führt aktuell zu Anpassungen an vielen Verträgen

Ein anschauliches, anderes Beispiel sind Flugzeuge, deren Daten sowohl Airlines als auch die Hersteller der Flugzeuge auszuwerten versuchen um beispielsweise möglichst klug Wartungsarbeiten einzuplanen. Oder die von Autos generierten Daten beim autonomen Fahren.

Und wer innerhalb einer Organisation ist für die Daten verantwortlich?

Hier gibt es aus dem Bereich Business Intelligence kommend bereits lange das Prinzip des Data Owners: Der Data Owner ist für die ihm zugeordneten Daten entscheidungsbefugt, zum Beispiel in Hinblick auf das Löschen von Daten.

Dies ist ein wichtiger Aspekt, der durch die DSGVO erstmalig verbindlich an Bedeutung gewonnen hat. Vor der DSGVO war es üblich, Daten immer weiter anzusammeln. Mit der DSGVO ist erstmalig eine Verpflichtung in Kraft getreten, gewisse Daten zu löschen.

Data Ownership regelt, wer hierfür die Verantwortung trägt.

Kommen wir nochmal zu unserem Ausgangsthema zurück, dem Spannungsverhältnis zwischen Data Science und Business Intelligence. Lassen sich beide Disziplinen vereinigen?

Es gibt durchaus Verfechter des Ansatzes, dass man Business Intelligence breiter verstehen sollte und Data Mining ein Bestandteil von Business Intelligence ist, letztlich also mit heutigen Worten auch Data Science. Im Extremfall hört man, Data Science sei einfach „besonders komplexe“ Business Intelligence.

Diese Sichtweise birgt aber auch ein großes Risiko, da die Mentalitäten komplett verschieden sind. Vereinfacht gesprochen, geht es bei Business Intelligence darum, dass Menschen aus Daten und ihrer Visualisierung lernen, bei Data Science hingegen um das Maschinenlernen.

Das menschliche Lernen und das Maschinenlernen sind hier grundlegend verschieden.

Für Menschen ist wichtig, die richtigen Daten in geeigneter Form präsentiert zu bekommen, die eigentliche Entscheidung bzw. der Lernprozess wird dann aber angereichert um menschliches Wissen und Erfahrung. Häufig wird es genutzt, um einzigartige Entscheidungen datenunterstützt zu treffen.

Beim Maschinenlernen wird ein Algorithmus auf ein Muster in den Daten trainiert, das dazu existieren muss und eine gewisse Stabilität im Zeitablauf aufweisen muss. Auf neuen Daten lässt sich diese Mustererkennung anwenden, z. B. um Betrugsfälle zu erkennen. Meist wird das Verfahren dann für eine große Anzahl Daten angewandt um eine Vielzahl strukturell gleicher Entscheidungen automatisiert oder semi-automatisiert zu treffen.

Für Data Scientists ist es wichtig, Algorithmen zu validieren [6]. Daten werden in Trainings- und Testmengen zerlegt, ein Modell auf Basis von Trainingsdaten trainiert und anschließend die Güte mit Hilfe von Testdaten validiert. Im Bereich Business Intelligence gibt es keine Entsprechung hierfür, da die Entscheidung durch Menschen getroffen wird, nicht maschinell; in diesem Sinn lässt sich Business Intelligence nicht validieren.

Auf der anderen Seite ist Business Intelligence konzeptionell viel einfacher zu verstehen und braucht keine besondere Erklärung: Letztlich werden Daten ausgelesen, geeignet verarbeitet und anschließend in einem Bericht oder Dashboard visualisiert. Dieses Prinzip erschließt sich Menschen unmittelbar, im Grunde bleibt nur die Frage der Datenquellen und genauen Vorverarbeitungsschritte.

Im Bereich Data Science lernen Algorithmen typischerweise multivariate Zusammenhänge in Daten. Diese sind per se nicht einfach zu beschreiben: für Menschen erschließt sich vielfach nicht konkret, was genau der Algorithmus gelernt hat, da sich dies aufgrund der hohen Dimensionalität (z. B. 500) nicht anschaulich beschreiben lässt.

Sehr plakativ ist Business Intelligence also näher am menschlichen Lernen, Data Science ist Maschinenlernen. Schließen sich das menschliche Lernen und maschinelles Lernen denn gegenseitig aus?

Zunächst mal ist datenbasiertes, menschliches Lernen sicherlich ein Erfolgsrezept, insbesondere seit der Renaissance. Business Intelligence steht in dieser Tradition. Hingegen sind Data Science und das maschinelle Lernen ziemlich jung, Data Science ist der Neuling, der etwas anders macht.

Gelegentlich wird gesagt, Data Science ersetze Kausalität durch Korrelation; es wird in Daten ein Zusammenhang zwischen Eingangsparametern und einer Ausgangsgröße als Muster erkannt, ohne dass ein wirklicher Ursache-Wirkungs-Zusammenhang geschlossen wird. Dies erschließt sich einem Menschen nicht mehr ohne Weiteres: es ist schwierig, aus einem solchen erkannten Muster menschlich zu lernen.

Von Kausalität zu Korrelation, hier kommt der Mensch nicht ohne Weiteres mit.

Noch extremer kann man die Position einnehmen, dass maschinelles Lernen und automatisierte Entscheidungen in letzter Konsequenz dazu führen könnten, dass der Mensch an Wissen verliert. Werden Entscheidungen vollautomatisiert durch Maschinen getroffen, könnte das Wissen über die Zusammenhänge für Menschen verloren gehen, der Mensch würde dem Computer dann einfach blind vertrauen.

Dem steht unter anderem der Trend „Explainable AI“ entgegen, in den derzeit große Hoffnungen gesetzt werden [7]. Die Idee ist hierbei, das maschinell Gelernte erklärbar zu machen, sodass es sich von Menschen nachvollziehen lässt und entsprechend auch zu menschlichem Lernen führt.

Man kann auch entgegnen, dass sich menschliches und maschinelles Lernen häufig sehr gut ergänzen. Zum Beispiel geschieht dies beim Schach oder GO: Wirkliche Schachprofis machen ihre Vorbereitung längst computergestützt und sind hierdurch auch deutlich besser geworden. Im Bereich GO haben Computeralgorithmen Lösungsstrategien entwickelt, die von Menschen bislang nicht eingesetzt wurden – dann aber schnell auch von Menschen aufgegriffen worden sind.

Im Grunde sollte man die beiden Disziplinen nicht gegeneinander ausspielen. Es gibt Situationen, in der eine sehr große Masse an Entscheidungen getroffen werden muss, zum Beispiel beim Aufdecken von potenziellem Kreditkartenbetrug. Hier ist klar, dass maschinelle Verfahren eingesetzt werden müssen. Genauso gibt es Einzelfallentscheidungen, die in hohem Maße auf menschlichem Wissen basieren und wo Daten allenfalls zur Unterstützung herangezogen werden können. Wiederum gibt es Situationen, in denen Maschinen Vorschläge für Entscheidungen generieren können, die schlussendlich von einem Menschen verifiziert werden; diese Situation findet man bspw. häufig in medizinischen Anwendungen.

Und es gibt sehr viele Situationen, in denen die perfekte Kombination aus Mensch und Maschine besteht, wo man also die jeweiligen Stärken miteinander kombiniert.

Was gibt es für Schnittstellen zwischen Data Science und Business Intelligence?

Tatsächlich gibt es sehr häufig ganz einfache Schnittstellen. Zum Beispiel generiert maschinelles Lernen vielfach Scores, beispielsweise eine Abschätzung der Kündigungswahrscheinlichkeit von Kunden. Auch wenn gelegentlich automatisiert auf solche Scores reagiert werden kann, liegt eine häufige Anwendung einfach darin, den Score als Attribut zum Kunden im Data Warehouse zu speichern. Von hier ausgehend wird der Score dann geeignet an den Fachanwender transportiert, sei es in diesem Beispiel über das CRM-System oder eine Anzeige in speziellen Berichten oder Dashboards. Viele Deployments im Bereich Data Science sind unspektakulär und liefern einfach nur Daten, die wieder in das Data Warehouse zurückfließen.

Und wie können sich Data Science und Business Intelligence sonst noch ergänzen?

Selbstverständlich können beide Disziplinen sehr viel durch die Zusammenarbeit voneinander profitieren. Wie bereits angesprochen, finden sich im Bereich Data Science häufig Einsteiger ohne lange Berufserfahrung. Natürlich können diese von den Erfahrungen „alter Hasen“ aus dem Bereich Business Intelligence profitieren, insbesondere deren Erfahrungen im Netzwerken in der Organisation. Besonders wichtig ist auch die Nähe zu den Fachabteilungen, die für beide Disziplinen sehr wichtig ist.

Eine Idealvorstellung könnte sein, dass beide Disziplinen in ihren Teams die jeweilige Besonderheiten wahren und sich spezialisieren können, aber in einer übergreifenden Einheit auch der Austausch gefördert wird, so dass man voneinander profitieren und lernen kann, zumal sich inhaltlich auch Überlappungen in gewissen Tätigkeiten – zum Beispiel dem Data Engineering – ergeben können.

Aber vermutlich wird es noch eine gewisse Zeit dauern, bis sich hier eine Art „best practice“ für die Organisation etabliert.

Der erste Teil des Expertengesprächs wurde letzte Woche in unserer Reihe Business Intelligence meets Data Science veröffentlicht.

[1] https://www.meetup.com/de-DE/Business-Intelligence-und-Analytics-Dortmund

[2] https://www.meetup.com/de-DE/Business-Intelligence-und-Analytics-Dortmund/events/266751314/

[3] https://www.tu-chemnitz.de/wirtschaft/wi2/wp/de/team/prof-dr-peter-gluchowski/

[4] https://www.linkedin.com/in/martin-schmitz-03886a94/

[5] https://rapidminer.com/resource/gartner-magic-quadrant-data-science-platforms/

[6] https://rapidminer.com/resource/correct-model-validation/

[7] https://en.wikipedia.org/wiki/Explainable_artificial_intelligence