Am 30.1.2020 haben wir im Rahmen der Meetup-Gruppe „Business Intelligence & Analytics Dortmund“ [1] eine Podiumsdiskussion zum Thema „Business Intelligence meets Data Science“ durchgeführt, an der zwei Experten als Vertreter der jeweiligen Fachdisziplin teilgenommen haben und die der Autor dieses Beitrags moderieren durfte. [2] Dieser Blogbeitrag beschreibt den ersten Teil des Gesprächs.

Prof. Dr. Peter Gluchowski leitet den Lehrstuhl für Wirtschaftsinformatik, insb. Systementwicklung und Anwendungssysteme, an der Technischen Universität in Chemnitz und konzentriert sich dort mit seinen Forschungsaktivitäten auf das Themengebiet Business Intelligence. Er beschäftigt sich seit rund 20 Jahren mit Fragestellungen aus dem Bereich Business Intelligence und war lange Jahre im Vorsitz des TDWI Germany e.V., den er mitbegründet hat. [3]

Dr. Martin Schmitz hat in Dortmund Physik studiert, hierzu promoviert und ist seit 2014 bei der Firma RapidMiner Inc. Beschäftigt, nimmt dort mittlerweile die Rolle des „Head of Data Science Services“ ein und steht damit in direktem Austausch mit Anwenderunternehmen. RapidMiner wurde von Gartner 2019 zum sechsten Mal in Folge in den Magischen Quadranten für „Data Science and Machine Learning Platforms“ aufgenommen. [4], [5]

Im Folgenden möchten wir einige Aspekte der Diskussion herausgreifen und die Meinung der Experten in komprimierter Form vorstellen. Der Fokus liegt dabei auf dem Ergebnis der Diskussion, nicht darauf, wer was genau gesagt hat. Klarstellend sei betont, dass es sich dabei um persönliche Einschätzungen und Meinungen als Momentaufnahme der Diskussion handelt; viele Fragestellungen des Zusammenwachsens von Business Intelligence und Data Science befinden sich – wie überhaupt die gesamte Landschaft rund um Data & Analytics – weiterhin im Fluss und sind entsprechend kontinuierlichen Veränderungen unterworfen.

Eingangs möchten wir die Frage betrachten, wie man überhaupt zu einem Experten bzw. Vertreter der jeweiligen Disziplin wird. Was ist ein Data Scientist bzw. wie wird man dies?

Man muss hier in der Realität zunächst stark unterscheiden zwischen dem, was bei Vorreitern wie Facebook oder Netflix gemacht wird und dem, was typischerweise Data Scientsts bei deutschen Firmen vorfinden. Firmen wie Netflix sind unglaublich datengetrieben, dort ist jedem klar, wie entscheidend Daten und Algorithmen für den Geschäftserfolg sind, zum Beispiel konkret die Bedeutung des Empfehlungssystems (Recommender Engine) für den wirtschaftlichen Erfolg. Dies ist tief in der Denkweise und Kultur verankert, diese Unternehmen denken datengetrieben, teilweise „AI First“. Hingegen findet man bei typischen deutschen Firmen eine ganz andere Kultur vor.

Die meisten Data Scientists haben eine ingenieurwissenschaftliche Ausbildung, zum Beispiel landen viele Physiker in diesem Bereich. Tatsächlich ist aber der konkrete Einstieg in den Beruf eine echte Herausforderung. Das sieht man zum Beispiel gut daran, dass unter Reddit/r/DataScience [6] rund ein Drittel der Beiträge die Frage behandeln, wie man den Einstieg schafft, konkret den ersten Job als Data Scientist findet. Nach dem Einstieg sammelt man dann Erfahrungen und entwickelt sich weiter.

Vielfach wird ein etwas gefährliches Bild des Data Scientists vermittelt. Der idealtypische Data Scientist kann sich mit tiefgehendem Informatikwissen, methodischen Wissen und zudem fachlichem Expertenwissen in Problemstellungen eindenken und mit guten Moderationsfähigkeiten seine Ansätze erfolgreich verkaufen. Das scheint aber eher eine Idealisierung zu sein; man schiebt hier quasi alles, das man sucht, in die Rolle des Data Scientist und wundert sich hinterher, dass real existierende Menschen diese Rolle nicht ausfüllen können.

Tatsächlich muss auch nicht jeder Data Scientist beliebig tief in der Theorie stecken, beispielweise Backpropagation runterdeklinieren müssen. Gerade mit Self-Service Data Science Werkzeugen wie RapidMiner wird es möglich, talentierte Mitarbeiter aus Fachabteilungen in Richtung „Citizen Data Scientist“ zu entwickeln.

Und wie „landet“ man im Bereich Business Intelligence?

Das Thema Business Intelligence ist an Hochschulen nicht sonderlich hoch aufgehangen, egal in welchem Studiengang. Allerdings werden Grundzüge durchaus im Bereich Informatik und Wirtschaftsinformatik behandelt. An der TU Chemnitz ist dies anders, dort gibt es tatsächlich einen eigenen Studiengang zu dem Thema. Hierauf gibt es sehr positive Resonanz von Anwendungsunternehmen und Beratungshäusern, die händeringend Mitarbeiter im Bereich Business Intelligence suchen.

Im Gegensatz zu dem relativ neuen Thema Data Science gibt es um Bereich Business Intelligence Fachexperten, die seit dutzenden Jahren erfolgreich in dem Thema arbeiten. Theoretisch lassen sich solche Experten finden, allerdings ist das Gehaltsniveau auch entsprechend hoch.

Mitbringen sollte man sicherlich gesundes Datenbankverständnis, wobei sich auch der Bereich Business Intelligence immer mehr ausdifferenziert hat. So gibt es mittlerweile auch viele im Frontend tätige Entwickler, die vor allem Wissen um Usability bzw. User Experience und Design mitbringen sollten. Im Backend sollte man sich nicht zu schade sein, Code zu schreiben und grundsätzlich komplexe Strukturen durchdringen zu können. Eine Affinität zu Daten und Datenstrukturen ist in jedem Fall wcihtig.

Es schließt sich die Frage an, wie das jeweilige Thema organisatorisch üblicherweise in Organisationen verankert ist.

Business Intelligence ist üblicherweise ein Kompetenzzentrum, konkret das „Center of Competence Business Intelligence“ bzw. in Kurzform „CoC BI“.

Das CoC BI ist dann entweder einem Fachbereich zugeordnet, häufig dem Controlling. Oder es ist in der IT angesiedelt. Je nach der Aufhängung unterscheiden sich dann auch die Aufgaben und Schwerpunkte der Tätigkeit.

Insgesamt kann man aber sagen, dass die Organisation üblicherweise klar ist und man hier auf langjährige Erfahrungswerte zurückblicken kann. Man weiß, welche Skills benötigt werden, welche Profile gesucht werden und wie die Aufgaben zu organisieren sind, insgesamt gibt es zur Organisation vergleichsweise wenig Diskussionsbedarf.

Data Science hingegen ist als Thema neuer, entsprechend weniger etabliert ist die Organisation. Auch hier findet man immer wieder Kompetenzzentren oder Center-of-Excellence Ansätze, ebenso eine Zuordnung zum CIO oder CFO.

Ein durchaus signifikantes Problem tritt auf, wenn das Team „disconnected“ von den eigentlichen Fachanwendern mit dem zu lösenden Problem sind. So kann es in produzierenden Unternehmen zu Situationen kommen, wo das Data Science-Team fernab des Werks tätig ist und es dann entsprechend schwer hat, mit den Ingenieuren im Werk effektiv zusammenzuarbeiten. Die Nähe zur Fachabteilung ist wesentlich für den Projekterfolg.

Bemerkenswert ist, dass viele Data Scientists Anfänger sind. Die Ursache ist einfach, selbst wenn die Studiengänge zu dem Thema in den letzten Jahren aus dem Boden spießen, gibt es sie doch noch nicht all zu lange. Im Gegensatz zu Business Intelligence findet man keine Mitarbeiter mit 20 Jahren Erfahrung. Tatsächlich wirkt sich dies teilweise auf die Organisation aus, da viele Data Scientists neu in Unternehmensstrukturen sind und noch nicht über die Erfahrung „alter Hasen“ verfügen. Insgesamt konnten organisatorische Fragen hier noch nicht so lange reifen wie im Bereich Business Intelligence.

Business Intelligence hat sich seit längerer Zeit in Unternehmen etabliert. Wie kommt es, dass sich Data Science daneben als eigene Disziplin etablieren konnte?

In der Tat wurden natürlich schon immer Daten genutzt um Prozess zu verbessern und viele Algorithmen, die im Bereich Data Science eingesetzt werden, sind nicht neu.

Was sich allerdings dramatisch verändert hat, ist die Menge der verfügbaren Daten. Dies sieht man zum Beispiel am Beispiel eines Autos, das mittlerweile in Echtzeit sehr große Datenmengen in die Cloud schickt, die anschließend für Auswertungen genutzt werden können.

Insgesamt sind mit den verfügbaren Datenmengen auch unsere Möglichkeiten drastisch gewachsen, diese zu speichern und zu verarbeiten. Nehmen wir das Beispiel Fabriken: selbst mittelständische und kleine Unternehmen verfügen häufig über Devices, mit Hilfe derer Maschinendaten in Echtzeit in die Cloud übertragen werden.

Mit der Verfügbarkeit dieser Daten und dem sichtbaren Erfolg von Vorreitern wird es übersichtlich, dass Data Science zum Unternehmenserfolg beitragen kann, hier aber anders verfahren werden muss als im traditionellen Thema Business Intelligence.

Es geht also in hohem Maße um die Verfügbarkeit großer Datenmengen und den damit einhergehenden neuen Analysemöglichkeiten. Früher hatte ja typicherweise das Data Warehouse die Hoheit über die Daten. Wie sieht das heute aus?

Das ist sicherlich richtig, wobei sich Business Intelligence und das Data Warehouse traditionell auf strukturierte Daten beschränkt haben. Heute sind aber in hohem Umfang auch semistrukturierte und unstrukturierte Daten verfügbar, zudem Massendaten (wie z. B. Sensordaten), die zwar strukturiert sind, aber dennoch nicht zu den klassisch im DWH gespeicherten Daten zählen.
Eine wichtige Veränderung, dass Speicher dramatisch günstiger geworden ist. In diesem Zusammenhang war Big Data sicher ein großer und wichtiger Hype, der auch die C-Level Ebene von großen Unternehmen erreicht hat. Big Data verspricht, große Datenmengen – typischerweise Rohdaten – günstig zu speichern und zu verarbeiten. Hierdurch wurden Budgets freigeräumt, Projekte und Piloten gestartet aber letzten Endes hat vieles dann doch nicht den Weg in die Produktion geschafft.

Data Lakes sind entstanden als Sammelstelle für unstrukturierte Daten, im Grunde als „Spielwiese“ für Data Science. In den Data Lake fließen Daten ohne Vorverarbeitung aus unterschiedlichen Quellsystemen. Ein Stück weit hat man dabei allerdings viele Fehler wiederholt, die man im Bereich Business Intelligence bereits vor 20 Jahren gemacht hatte: viele Data Lakes sind zum Datensumpf geworden, in dem sich Daten nicht sinnvoll wiederfinden lassen. Diese fehlende Organisation ist sicherlich auch ein Treiber für das Thema Data Catalog, das derzeit an Bedeutung gewinnt – also die Ordnung der Datenlandschaft.

Ein Stück weit spiegeln sich in den Konzepten des Data Warehouse und Data Lakes aber auch die unterschiedlichen Kulturen der Teilbereich wider.

Im Bereich Business Intelligence liegt der Fokus auf Konsistenz und Korrektheit sowie Verfügbarkeit der Daten, also Dinge, die man aus der klassischen IT kennt. Die Daten müssen doppelt und dreifach kontrolliert sein, fließen dann zum Beispiel in Geschäftsberichte ein.

Hingegen brauchen viele Data Science Anwendungen Rohdaten. Alles Weitere – zum Beispiel eine Verdichtung oder Vorverarbeitung – ist dann bereits Teil der Data Science Anwendung. Ähnliche Anforderungen findet man durchaus auch in den Fachabteilungen. Es geht um Agilität, um Flexibilität und Time to Market, letztlich Tendenzen, die auch zu dem Erfolg des Self-Service BI Markt geführt haben.

Auch wenn es sicher Überlappung in der Datenbereitstellung für Data Science und Business Intelligence gibt, ist der Bedarf doch strukturell anders. Data Scientists brauchen Rohdaten wie sie typischerweise nicht im Data Warehouse gespeichert sind. Die Vorverarbeitungssschritte, die im Bereich Business Intelligence mit dem Ziel der Datenqualitätsverbesserung durchgeführt werden, sind für Data Science teilweise sogar problematisch bzw. schädlich – hier ist wichtig auf die unveränderten Rohdaten zugreifen zu können.

Gute Data Pipelines sind aber sicher für beide Disziplinen hilfreich, Data Engineering insofern eine Serviceleistung, die für beide Bereiche wichtig ist.
Der abschließende zweite Teil des Expertengesprächs ist Gegenstand des nächsten Blogbeitrags unserer Reihe Business Intelligence meets Data Science.

[1] https://www.meetup.com/de-DE/Business-Intelligence-und-Analytics-Dortmund

[2] https://www.meetup.com/de-DE/Business-Intelligence-und-Analytics-Dortmund/events/266751314/

[3] https://www.tu-chemnitz.de/wirtschaft/wi2/wp/de/team/prof-dr-peter-gluchowski/

[4] https://www.linkedin.com/in/martin-schmitz-03886a94/

[5] https://rapidminer.com/resource/gartner-magic-quadrant-data-science-platforms/

[6] https://www.reddit.com/r/datascience/