Diese Frage wurde mir in den letzten Jahren immer wieder auf Konferenzen und Fachveranstaltungen gestellt. Gerade „alte Hasen“ im Business Intelligence Umfeld sind häufig der Meinung, Talend sei ein Open-Source ETL Tool. Insofern möchte ich diese falsche Vorstellung ausräumen und grob herausarbeiten, was Talend eigentlich ist und leistet.

Im Kern ist an dem Vorurteil tatsächlich ein Funken Wahrheit dran. Zu Beginn, vor mittlerweile 14 Jahren, ist Talend tatsächlich entstanden als Open-Source ETL Werkzeug. In der Zwischenzeit hat sich hieraus aber eine gewaltige Plattform entwickelt, hinter der eine börsennotierte Firma mit einer Marktkapitalisierung von deutlich über 1 Mrd. US$ steht.

Die Vorstellung von Talend als ETL-Werkzeug kommt aus der traditionellen Business Intelligence Welt. Früher war die Architektur noch einfach. Im Mittelpunkt stand (und steht auch noch heute) das Data Warehouse. Mehrere Quellsysteme wurden mit Hilfe von ETL angebunden, die Daten also aus den Quellen extrahiert, in ein Zielformat transformiert und in das Data Warehouse geladen. Das Data Warehouse dient dann als Basis für Auswertungen, zum Beispiel das Enterprise Reporting. Zwischengeschaltet sind noch Data Marts, die wir zum Zwecke der Vereinfachung aus dem Bild weggelassen haben. In dieser Welt stand Talend für die schwarzen Pfeile, ETL-Entwickler haben mit Talend entsprechende Jobs gebaut.

Bild - Abbildung 1 - Geros Blog 05.07.2019

Aber die Datenwelt hat sich natürlich längst verändert. Heutzutage stehen wir vor ganz anderen Herausforderungen. Wir haben einerseits viel mehr Daten. Experten sind sich einig, dass sich die verfügbaren Datenmengen grob alle zwei Jahre verdoppeln: In den letzten zwei Jahren wurden mehr Daten generiert als in der gesamten Geschichte zuvor. Zudem sind diese Daten vielfältiger: Neben klassisch relationalen Daten werden semistrukturierte und unstrukturierte Daten immer wichtiger, von Texten bis zu Tönen und Videos. Und es wird immer wichtiger, Daten schnell zu verarbeiten bzw. bereitzustellen. Genügte früher häufig eine Bereitstellung monatsweise, sind heute für viele Anforderungen tagesaktuelle Daten viel zu langsam. Letztlich gibt es mehr Konsumenten von Daten, häufig mittlerweile auch Systeme, die in „Maschinengeschwindigkeit“ (und damit Nahe Echtzeit) Daten verarbeiten.

Und auch die „normalen“ Anwender haben sich verändert. Insgesamt sind die Menschen IT-affiner geworden und übertragen ihre Erfahrungswerte aus dem privaten Umfeld mit Apps auf eine Erwartungshaltung ins Business. Mehr Anwender brauchen Daten und können diese auswerten. Damit sind die Anwender aber auch eine wichtige Bereicherung für die Bearbeitung von Daten geworden: Sie können und sollten eingebunden werden, wenn es bspw. um das Thema Master Data Management oder Datenqualität geht, ebenso bei der Beurteilung der Nützlichkeit von Daten oder deren Korrektheit.

Kommen wir nun zurück zur Ursprungsfrage: Was ist Talend? Talend ist eine moderne Plattform für die skizzierten Anforderungen rund um die Verarbeitung von Daten. Im Fokus steht das Ziel, schnell vertrauenswürdige Daten bereitzustellen – alle Werkzeuge der Plattform Talend ranken sich um diese Herausforderung.

Neben klassischem ETL (und ELT) gehören hierzu Data Pipelines genauso wie Werkzeuge für das Management und die Verbesserung der Datenqualität, zur Katalogisierung und Verwendungsanalyse von Daten und Datenverarbeitungsstrecken sowie Werkzeuge zur Bereitstellung von Daten für Menschen und Maschinen.

Bild - Abbildung 2 Geros Blog 05.07.2019

Wesentlich bei dieser gesamtheitlichen Betrachtung ist, dass Menschen in unterschiedlichen Rollen eingebunden werden, vom Entwickler über Data Stewards und Data Engineers hin zum Betrieb. Erfolgreiches Data Management ist „Teamsport“. Unterschiedliche Werkzeuge adressieren mit jeweils passender Oberfläche unterschiedliche Nutzergruppen. Werkzeuge für die Data Stewards haben eher die Anmutung von Excel, Werkzeuge für Entwickler integrieren sich in übliche Entwicklungsprozesse.

Talend war mal ein Open-Source ETL Werkzeug. Mittlerweile ist Talend eine vollumfängliche Plattform für das Datenmanagement, logisch gegliedert in Collect, Govern, Transform und Share. Als Plattform entwickelt sich Talend stetig weiter und ist auch Dank des Open-Source Kerns sehr nahe an aktuellen Entwicklungen. Der Nutzen für Kunden liegt in der Agilität: Indem sich die Plattform kontinuierlich an den (aus heutiger Sicht ungewissen) Trends des Marktes ausrichtet, profitiert das eigene Datenmanagement hiervon automatisch.

Mehr zu Talend finden Sie auf auf unserer Website.