Big Data ist hier um zu bleiben

Nach Social Media ist das Internet of Things der nächste „Treiber“ für den Anstieg der Datenmengen, die sich weltweit etwa alle zwei Jahre verdoppeln. [1] Gleichzeitig wird die Geschwindigkeit in der Verarbeitung von Daten immer wichtiger und die Komplexität der Analysen höher, da viele Daten ihre Relevanz mit zunehmendem Alter verlieren und neben strukturierten Daten unstrukturierte und semi-strukturierte Daten an Gewicht gewinnen (zum Beispiele Bilder, Texte, Videos und Töne). Dies sind die drei Hauptfaktoren, die Big Data definieren: Volume, Velocity und Variety. [2] Unternehmen, die diese Daten beherrschen und daraus Aktionen ableiten können, werden im Wettbewerb erfolgreicher sein und damit eine höhere Profitabilität haben. [3]

Große Unternehmen sind derzeit klar die Vorreiter. Schaut man auf den Einsatz von Big Data Technologien, ist die Hadoop Adaption ein guter Indikator für die Verbreitung. Laut dem O’Reilly Report „The Big Data Market 2016“ [4] haben in den U.S. etwa 300 Unternehmen mit mehr als 5.000 Mitarbeitern Hadoop produktiv im Einsatz. Dem stehen genauso viele Unternehmen mit weniger als 5.000 Mitarbeitern gegenüber, wobei diese Gruppe aber um einen Faktor 10 größer ist. Die Durchdringung bei kleineren Unternehmen ist insofern bedeutend geringer und beschränkt sich vorrangig auf datenorientierte High-Tech Unternehmen.

Dennoch bieten sich auch für kleinere Organisationen attraktive Chancen. Laut Cloudera lassen sich mit dem reifenden Hadoop Ökosystemen nicht nur reine Kosteneinsparungen realisieren sondern zunehmend auch neue Geschäftsmöglichkeiten durch die kluge Nutzung von Daten erschließen. Die Hauptanwendungen liegen in einem besseren Verständnis der Kunden, der Verbesserung von Produkten und Services, mehr Effektivität in Prozessen sowie eine Verminderung von Risiken durch bessere Qualitätssicherung und Erkennung von Problemen. [5]

Wie man konkret anfangen kann

Aller Anfang ist schwierig. In unserem täglichen Geschäft beobachten wir, dass sich viele mittelständische Unternehmen zwar für Big Data Technologien prinzipiell interessieren, es aber beim konkreten Einstieg hapert. Wie kann ein konkreter Einstieg aussehen?

Nach unserer Erfahrung hat sich ein kleiner Einstieg mit einem konkreten und geschäftsrelevanten Projektvorhaben als erfolgreich erwiesen. Viele unserer Kunden treffen auf die Herausforderung, für sie „neuartige“ Datenquellen anzubinden und in größerem Maßstab Daten zu speichern. Häufig handelt es sich dabei um Maschinendaten, gelegentlich um Social Media. Zwar wäre es prinzipiell möglich, diese Daten in einer relationalen Datenbank, möglicherweise sogar im vorhandenen Data Warehouse unterzubringen. Dies ist aber meist mit hohen Kosten und einem signifikanten Projekt verbunden, so dass sich das Evaluieren von Alternativen lohnt. Plakativ formuliert, fühlt es sich nicht richtig an.

Gerade solche Vorhaben eignen sich exzellent um Erfahrung mit Big Data Technologien zu sammeln. Grundsätzlich ist ein vergleichsweise kleines, überschaubares und isoliertes Projekt ein risikoarmer Einstieg in eine neue Technologie. Dies gilt auch für Big Data. Dabei ist dann auch nicht entscheidend, dass alle 3 V’s (Volume, Velocity, Variety) mustergültig erfüllt sind. Wesentlich ist, dass ein beherrschbarer, geeigneter und geschäftsrelevanter Anwendungsfall mit messbaren Erfolgskriterien gefunden wird, um eine schnelle Überführung aus der Pilot- in die Produktionsumgebung sicher zu stellen. [6] Selbst wenn man ein solches Projekt noch mit alten und bekannten Technologien hätte adressieren können, sollte man die Chance des kleinen Einstiegs in Big Data Technologien nicht unterschätzen. Denn andernfalls wird man potenziell von der Komplexität eines größeren Vorhabens erschlagen und hat sich die Möglichkeit genommen, in beherrschbarem Umfang mit den neuen Technologien Erfahrung zu sammeln.

Die Architektur eines solchen ersten Projekts ist meist beherrschbar, die Technologien sind gereift. Eine Hadoop Distribution wird als Datenspeicher verwendet. Führende Hadoop Distributionen wie Cloudera sind mittlerweile ausgereift und erheblich zugänglicher geworden. Die Daten müssen an ihrer Quelle abgeholt, potenziell transformiert (wobei allerdings im Big Data Umfeld tendenziell Rohdaten gespeichert werden) und in Hadoop geladen werden. Die Talend Big Data Platform bietet alle Möglichkeiten um eine solche Strecke modellbasiert zu realisieren, performanten nativen Code zu generieren und dennoch von den konkreten Technologien zu abstrahieren, die sich immer noch schnell verändern. [7] Schlussendlich werden die Daten üblicherweise ausgewertet, entweder direkt auf den Rohdaten oder über den Umweg eines Data Mart mit vorverarbeiteten Daten. Das Data Mart kann dann wiederum mit Talend gefüllt werden. Für die Auswertungen sind entweder schon geeignete Werkzeuge im Unternehmen im Einsatz oder dies ist eine gute Gelegenheit solche einzuführen, typischerweise aus dem Bereich Data Visualization & Discovery und Advanced Analytics.

Anfangen, wachsen und neuen Chance schaffen

Big Data und Data Warehouse wachsen zusammen. Theoretisch kann mit Hilfe von Big Data Technologien das gesamte Data Warehouse modernisiert werden, häufig mit signifikanten Kosteneinsparungen und neuen Möglichkeiten. Aber auch ein langsameres Zusammenwachsen der Big Data Welt mit dem traditionellen Data Warehouse ist möglich. Steht erstmal die Big Data Infrastruktur, ist eine Verbindung zwischen Hadoop und dem Data Warehouse problemlos möglich – und zwar potenziell in beide Richtungen. Das Data Warehouse kann als Quelle für Daten dienen, die in Hadoop gespeichert werden. Umgekehrt können Daten aus Hadoop gelesen, transformiert und schließlich im Data Warehouse gespeichert werden. Die Welten bleiben nicht isoliert sondern wachsen zusammen wobei am Ende der Reise ein auf Big Data Technologien basierendes Data Warehouse stehen kann.

Auch eine spektakuläre Reise beginnt mit dem ersten Schritt. Big Data Technologien sind reifer und zugänglicher geworden. Wie so häufig im Leben findet man den Zugang, wenn man konkret anfängt. Wir empfehlen, aktiv nach Projektchancen Ausschau zu halten. Beginnt man erstmal die Reise, hat man sich mit den Technologien auseinandergesetzt und die Infrastruktur errichtet, profitiert man schnell von den neuen Möglichkeiten. Um letzten Endes wettbewerbsfähig zu bleiben in einem Zeitalter datenbasierter Unternehmen.

Literatur

[1] https://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

[2] https://en.wikipedia.org/wiki/Big_data

[3] https://www.idc.com/getdoc.jsp?containerId=prAP40943216

[4] https://www.oreilly.com/ideas/the-big-data-market

[5] http://www.cloudera.com/content/dam/www/marketing/resources/whitepapers/the-business-value-of-an-enterprise-data-hub.pdf.landing.html

[6] http://www.gartner.com/newsroom/id/3466117

[7] https://talend.com/products/big-data