Gerade in den letzten Jahren gab es vielfältige technologische Umbrüche im Bereich Data und Analytics. Organisationen aller Größenordnung erkennen, dass sich durch kluge Strategien Wettbewerbsvorteile realisieren lassen. Besondere Herausforderungen liegen meist auf der Datenseite, konkret bei der schnellen Bereitstellung vertrauenswürdiger Daten aus unterschiedlichen Datenquellen. In modernen Unternehmen werden der Umgang und die Verarbeitung von gewonnenen Daten immer wichtiger.Die Transformation zum Data Driven Business ist nicht immer einfach und kann viele Fallstricke enthalten. Aus diesem Grund muss man sich die Frage stellen, welche Plattform die richtige für mich, meine Kollegen und unserem Geschäftsfeld ist.

 

Für alle, die keine Zeit hatten zu unserer Veranstaltung Fishing in the data lake zu kommen, fassen wir in diesem Artikel die Inhalte nochmal zusammen. Verpassen Sie in Zukunft keine unserer Veranstaltungen.

 

Durch die Cloud-Infrastruktur und der Integration an das Microsoft Azure und AWS Ecosystem ermöglicht Databricks seinen Kunden einen fließenden Data und Analytics Workflow vom Data Engineer bis hin zum Analysten (siehe Abbildung eins). Ein wesentlicher Vorteil von Databricks ist die direkte Anbindung an bestehende Datenquellen und an die marktüblichen Integrationstools, wie zum Beispiel Talend. Darüber hinaus bietet Databicks die Möglichkeit, ohne größeren Aufwand sowohl auf cloudbasierte Datenquellen als auch auf on-premise Datenquellen zuzugreifen und so dank des integrierten Delta Lakes einen eigenen Data Lake anzulegen.

Das Herzstück

Das Herzstück von Databricks ist die Bereitstellung der teilbaren Notebooks, die den Workflow zwischen den einzelnen Abteilungen optimieren. Data Scientists und Analysten können Hand in Hand zusammenarbeiten, um neue Einsichten aus den gewonnenen Daten zu ziehen. Databricks verknüpft gekonnt die Informationen aus den Analysemodellen mit dem Erfahrungsschatz der Mitarbeiter, um fundierte Entscheidungen für Unternehmen auf einer möglichst breiten Datenbasis zu ermöglichen.

 

Abbildung 1: Schaubild Data Science Pipeline

Elastizität nutzen mit der Cloud Infrastruktur

Neben der Herausforderung „Wie strukturiere ich meine Daten bestmöglichst?“, ergibt sich eine weitere Anforderung: „Wie skaliere ich meine bestehende Infrastruktur gekonnt, um in der Zukunft hohe Kosten zu vermeiden und darüber hinaus maschinelles Lernen out-of-the-box zu erhalten?“ Durch die integrierten Jobs und Anbindungsinstrumente an Microsoft Azure und Amazon Web Services (AWS) können einzelne Serverinstanzen, sogenannte Cluster, dynamisch skaliert werden. Dadurch beanspruchen rechenintensive Prozesse die Server nur so lange, wie diese tatsächlich benötigt werden. Die bedarfsgerechte Beanspruchung beeinflusst positiv die laufenden Kosten, da für Analysezwecke keine auf den maximalen Durchsatz und damit sehr teure Hardware im eigenen Rechenzentrum verfügbar gehalten werden muss.

Modernste Modelle verschaffen Ihnen den Vorteil

Ein besonderes Merkmal von Databricks ist die Integration von Python Notebooks zusammen mit verschiedenen Python Erweiterungen, wie beispielsweise Conda. Das Zusammenspiel aus den handgeschriebenen Modellen und der Integration von Python, R, Scala und SQL versetzt Data Scientists in die Lage, modernste Modelle zu erstellen, ohne auf vorgefertigte Modelle und Pipelines zurückgreifen zu müssen. So können modernste Deep Learning Modelle, wie beispielsweise Tensorflow 2.0, erstellt werden, die direkt zur weiteren Verwendung an das Analyse Team weitergeleitet werden können (siehe Abbildung zwei).

 

Beispiel einer Analyse für aktienbasierte Vorhersagen

Abbildung 2: Beispiel einer Analyse für aktienbasierte Vorhersagen

… Zusammenfassung

Optimierte und transparente Arbeitsumgebung

Databricks ermöglicht die fließende Zusammenarbeit zwischen Data Engineering (Datenaufbereitung), Data Science (Erstellen von Modellen) und Data Analysten (Analyse der Modelle).

Azure und Amazon Web Services

Durch die direkte Integration in Azure und Anbindung an Amazon Web Services können Kostenvorteile erzielt werden, da die benötigten Ressourcen nur bei Bedarf abgerufen werden.

Flexibilität und aktuellste Technologien

Im Gegensatz zu einigen anderen Produkten auf dem Markt werden Databricks-Nutzern keine Grenzen im Bereich des Machine Learning vorgegeben. Experten können Modelle eigenständig entwickeln, die direkt auf den individuellen Kundenwunsch zugeschnitten sind.

 

Tanja Menke

Nehmen Sie Kontakt zu uns auf und erfahren Sie, wie QuinScape Sie auf dem Weg zu einer modernen Data-Engineering-Architektur begleiten kann

Wenn Sie Interesse daran haben, eine eigene Data-Science Umgebung aufzubauen, sind wir der richtige Partner, der Sie dabei unterstützt. Wir ermöglichen Ihnen mit Databricks den Einstieg in modernste Business Intelligence Lösungen und begleiten Sie auf dem Weg von der Datenintegration bis hin zur Erkenntnis.Lassen Sie uns persönlich in den Austausch treten und erfahren Sie mehr über die Möglichkeiten der Verbindung zwischen Data Engineering und Data Science:

QuinScape GmbH
Tanja Menke
Wittekindstraße 30
44139 Dortmund

+49 231 / 533 831 259
dna@quinscape.de