Im Rahmen einer Vorlesung zum Thema „Big Data“ darf ich jährlich Studenten eine Einführung geben, was sich hinter diesem Begriff verbirgt. Leider fehlt es an einer wirklich validen Definition. Für einige fängt Big Data dort an, wo Excel aufhört. Zutreffender und gängiger ist eine Eingrenzung über 3 (oder mehr) V’s: Volume, Velocity und Variety.

 

Hinter Big Data befinden sich gewaltige Datenmengen (Volume), der Datenbestand nimmt typischerweise schnell zu bzw. die Daten fließen vergleichsweise schnell (Velocity) und die Daten sind vielfältig strukturiert bzw. semi-strukturiert oder unstrukturiert (Variety). Dies zusammen führt zu Herausforderungen, die im Vergleich zur traditionellen Datenbank neue Ansätze erfordern. Damit einher gehen vielfältige neue Geschäftschancen.

Eine besondere Rolle hat hier einst Hadoop gespielt. Entscheidend in der Architektur war die prinzipiell parallele Speicherung und Verarbeitung der Daten mit dem Grundprinzip, dass sich der Algorithmus zu den Daten bewegt, nicht umgekehrt. Letztlich war (und ist) dies die einzig probate Vorgehensweise, um schnell die gewaltigen Datenmengen in vielfältigen Formaten zu bearbeiten, z. B. um Erkenntnisse aus den Daten zu gewinnen.

Viele von uns erinnern sich vermutlich noch an den Höhepunkt der Big Data Ära – grob 2013 und 2014 –, die herausragende Bedeutung der Hadoop-Distributionen von Cloudera, Hortonworks und MapR sowie die unglaubliche Menge neuer Open-Source Projekte, die nahezu im Monatstakt das Hadoop-Ökosystem komplettiert haben.

Was ist eigentlich hieraus geworden? Warum hört man immer weniger von Big Data und warum nimmt die Bedeutung des Begriffs ab, wie man beispielsweise an seiner Popularität in Suchanfragen (Quelle: Google Trends) erkennen kann:

Die Antwort ist im Grunde einfach: Big Data ist Mainstream geworden und insbesondere durch die Cloud hat sich die „Big Data“-Verarbeitung von einer „Raketenwissenschaft“ zur normalen Herausforderung im Bereich Data Management und Data Analytics entwickelt. Die Aufmerksamkeit für den Begriff ist dem „Gartner Hype Cycle“ gefolgt, wir sind bei der produktiven Anwendung in der Fläche angelangt. Damit entfällt der Bedarf, explizit auf die Charakteristika hinzuweisen, die das Wort „Big“ unterstreicht.

Mittlerweile ist die Empfehlung von Tim Berners-Lee allgegenwärtig, die er gegenüber IT-Professionals ausgesprochen hat:

„They need to take the view that data is a precious thing and will last longer than the systems themselves.“

Aus dieser Empfehlung ist eine Erkenntnis gereift. Der professionelle Umgang mit dem „Asset“ Daten ist entscheidend für Organisationen. Daten sind ein zentraler Faktor im Wettbewerb. Dazu brauchen wir aber kein „Big“ mehr, nur die richtige Wertschätzung für und Behandlung von Daten generell.

Schon bei meiner ersten Vorlesung zu Big Data in 2016 hatte ich den Studenten avisiert, dass wir irgendwann das „Big“ streichen können und dieser Punkt ist langsam erreicht.