Vor kurzer Zeit bin ich in den Genuss gekommen, mit unseren Partnern Talend, Snowflake und RapidMiner auf einer gemeinsamen Roadshow zum Thema „Cloud Business Intelligence“ durch Deutschland zu ziehen und dabei spannenden Vorträgen und vielfältigen Diskussionen zu folgen. Einige Erkenntnisse möchte ich in diesem Beitrag zusammenfassen.
Unstrittiger Ausgangspunkt ist, dass der Themenkomplex „Data & Analytics“ mittlerweile von strategischer Bedeutung ist: der richtige Umgang mit dem Thema verhilft zu Wettbewerbsvorteilen und kann ganze Branchen und Märkte umkrempeln. Erschwert wird dies allerdings durch die rasanten Entwicklungen in diesem Umfeld, den immer neuen Innovationen und Möglichkeiten. Die Komplexität wächst mit den steigenden Datenmengen, der Tendenz zu semi- und unstrukturierten Daten sowie der zunehmenden Geschwindigkeit in der Verarbeitung von Daten um nur einige Treiber zu nennen.

 

Entsprechend populär ist der Ansatz, auf fertige Plattformen zu setzen um die Komplexität zu reduzieren und gleichzeitig von der stetigen technologischen Entwicklung zu profitieren. Genau hier liegt die Leistungsversprechung unserer an der Roadshow beteiligten Plattformpartner.

Im Fokus der Roadshow stand dabei die Cloud: Alle Partner zieht es mit ihren Plattformen in die Cloud, wenn auch mit unterschiedlicher Geschwindigkeit.

Entscheidend aus Kundenblickwinkel sind dabei vor allem drei Aspekte:

  • Aktualität, Time-to-Market: Cloud-basierende Lösungen sind schneller eingeführt, da ein Teil der Herausforderung auf den Anbieter delegiert wird (Infrastuktur). Die Lösungen sind stets aktuell, es entfällt das Risiko, auf alten Versionen zu hängen.
  • Skalierbarkeit / Elastizität: Ressourcen (Rechenleistung und Speicher) können punktgenau dimensioniert werden, sie müssen sich nicht an Lastspitzen (z. B. hoher ETL-Aktivität oder dem aufwändigen Trainieren eines maschinellen Lernverfahrens) orientieren.
  • Kosten: Die Abrechnung erfolgt gemäß Inanspruchnahme als laufende Kosten, es entfallen hohe anfängliche Investitionen.

Ausgangspunkt für die Präsentationen in der Roadshow war die klassische Business Intelligence Architektur

Daten werden aus Quellsystem extrahiert, in ein geeignetes Zielformat transformiert und anschließend in ein zentrales Data Warehouse geladen. Für die Strecke zwischen Quellsystem und Data Warehouse kommt ein ETL-Werkzeug zum Einsatz (Extraktion, Transformation, Laden). Aus den Daten sollen schließlich Erkenntnisse gewonnen werden. Einerseits kann die Erkenntnisarbeit direkt durch Menschen erfolgen, z. B. durch standardisierte Berichte oder eine interaktive, grafische Analyse. Andererseits können mit den heute verfügbaren Werkzeugen automatisch maschinell Muster in den Daten erkannt werden. Diesen letzten Aspekt haben wir in der Roadshow betont. Unsere Partner Talend (ETL und komplettes Datenmanagement), Snowflake (das erste wirklich von Anfang an für die Cloud entwickelte Data Warehouse) und RapidMiner (Data Science „blitzschnell“) haben Einblick in aktuelle Entwicklungen gegeben.

Snowflake macht deutlich, welche Chancen sich durch ein wirklich und ausschließlich für die Cloud konzipiertes Data Warehouse ergeben. Zugrunde liegt eine neuartige Architektur, die strikt die Rechenleistung (Compute) vom Speicher (Storage) trennt, um in beiden Dimensionen unabhängig skalieren zu können. Einerseits können somit faktisch beliebige Datenmengen mit strukturierten und semistrukturierten Daten gespeichert werden (Storage). Andererseits stehen unabhängige, virtuelle Zugänge zum Datenwarenhouse zur Verfügung („Cluster“), die auf dieselben Daten via SQL zugreifen, aber nicht um Ressourcen konkurrieren, sondern sich autark bedarfsgerecht skalierten lassen. So können z. B. unabhängige Cluster für ETL, Data Science, Finance, Sales, Marketing und ein Testsystem genutzt werden. Jedes Cluster kann bedarfsgerecht mit Knoten skaliert werden, wobei sekundengenau wirklich nur die genutzte Leistung in Rechnung gestellt wird. Ein weiteres, durch die Cloud ermöglichtes Highlight von Snowflake ist, dass keine klassisch administrativen Tätigkeiten im Data Warehouse anfallen: kein Tuning, keine Optimierung, kein manuelles Einrichten von Indizes o.ä., all dies übernimmt Snowflake selbständig.

Talend ist die führende Open-Source Plattform für die Integration von Daten sowie angrenzenden Themen des Datenmanagements wie Datenqualität oder Master Data Management. Auch hier spielt die Cloud eine immer wichtigere Rolle, ist sie doch zunehmend der „natürliche“ Ort für Daten, die z. B. durch weltweit verteilte Geräte generiert werden. Bemerkenswert ist, dass neben den klassischen „Backend-Themen“ das Datenmanagement immer häufiger auch moderne Oberflächen für Fachanwender erhält: beispielsweise zur Datenvorverarbeitung im Self-Service (z. B. Marketingdaten, die aus einer Messe gewonnen werden) oder in Form einer Stewardship-Console für den jeweils Datenverantwortlichen im Master Data Management. Als wesentlichen Trend sieht Talend, dass immer mehr Unternehmen eine Multi-Cloud Strategie fahren und Unabhängigkeit in ihren Lösungen von der zugrunde liegenden Cloud (AWS, Azure, Google) anstreben. Mit dem modellbasierenden Ansatz unterstützt Talend diesen Anspruch und ermöglicht, Jobs optimal in der jeweiligen Cloud zur Ausführung zu bringen.

RapidMiner schließlich ist eine Data Science Plattform, die es speziell dem „Citizen Data Scientist“ – also quasi dem nebenberuflichen Datenwissenschaftler – ermöglicht, auf modernste Verfahren aus dem maschinellen Lernen zuzugreifen, um aus Daten Erkenntnisse zu gewinnen. Assistenten und die Modellierungsoberfläche vereinfachen die Definition von Workflows erheblich, ohne dass sich hierdurch Begrenzungen ergeben: auf Wunsch kann auch tiefer z. B. mit Python oder R in die Abläufe „eingegriffen“ werden. Auch RapidMiner kann in der Cloud betrieben werden und sich dabei die Vorteile in der Skalierung zu Nutze machen, z. B. im Rahmen eines ressourcenintensiven Trainierens eines künstlichen Neuronalen Netzwerkes. Bemerkenswert ist der Trend, dass „Data Science“ im allgemeinen und maschinelles Lernen im Speziellen immer zugänglicher für Mitarbeiter in den Fachabteilungen wird, so dass sich diese fortgeschrittenen Datenanalysemethoden immer weiter in Unternehmen verbreiten können.

Zusammenfassend ist klar zu erkennen, dass es alle Hersteller in die Cloud zieht, wenn auch mit unterschiedlicher Geschwindigkeit. Gerade im Umfeld Data & Analytics mit seinen hohen Herausforderungen in Punkto Speicher und Rechenleistung ist die Elastizität bzw. Skalierbarkeit in der Cloud von hohem Nutzen. Natürlich bleiben aber auch Bedenken und es ist in den Gesprächen erkennbar, dass längst nicht jedes Unternehmen dazu bereit und willens ist, seine Daten in die Cloud zu verlagern. Klar zu verzeichnen ist aber, dass immer mehr Organisationen diese Option für sich prüfen und eine ebenso zunehmende Anzahl Organisationen diesen Weg auch tatsächlich beschreitet.