Talend wird vielfach als ETL- oder auch ELT-Werkzeug im Bereich von Business Intelligence Lösungen eingesetzt. ETL steht dabei für Extrahieren, Transformieren und Laden. Mit dem Zukauf von Stitch, einem reinen EL-Werkzeug in der Cloud, stellt sich die Frage: Ist Stitch und Talend die Kombination von EL und T?

Talend und Stitch

Talend ist kein reines ELT/ETL-Werkzeug sondern adressiert als Plattform viele weitergehende Themen wie z. B. die Echtzeit-Datenintegration, die Datenvorverarbeitung im Self Service (Data Preparation), Master Data Management (MDM) oder Big Data (u.a. den Umgang mit semistrukturierten und unstrukturierten Daten). Insgesamt positioniert sich Talend als vollumfängliche, moderne Datenintegrationsplattform. Dennoch bleibt speziell im  Bereich klassischer Business Intelligence Lösungen auch die reine Datenintegration (und damit letztlich ETL) ein wichtiges Thema für Talend.

Ende 2018 hat Talend den Anbieter Stitch für rd. 60 Mrd. US$ erworben, der ein reines EL-Werkzeug in der Cloud anbietet. Genutzt wird Stitch von bereits über 2.000 Kunden weltweit. Die Kunst von Stitch liegt in der Einfachheit und Beschränkung: Als Datensenke wird ein Data Warehouse festgelegt, z. B. Snowflake. Im Bereich der Datenquellen werden vielfältige Systeme – primär in der Cloud – mit standardisierten Adaptern unterstützt, darunter z. B. Salesforce, Google Analytics oder Facebook Kampagnen. Durch die einfache Struktur aus bekannten Quellen und festem Ziel, kann der gesamte EL-Prozess mit wenigen Parametern konfiguriert und anschließend automatisiert werden. Periodisch fließen dann definierte Daten aus dem Quellsystem in die Senke ohne dass die Struktur der Daten verändert wird.

Wie passt Stitch in reale Business Intelligence Gesamtlösungen?

EL kann für sich genommen bereits hilfreich sein. Auf einfache Weise können Daten aus einer oder mehreren Quellen angezapft und ohne Strukturveränderung in eine Senke „gepumpt“ werden um anschließend für Auswertungen bereitzustehen. Charmant ist, dass aufgrund der Einfachheit vergleichsweise schnell die Grundlage für Auswertungen geschaffen werden kann.

Natürlich können solche Lösungen aber kein Data Warehouse bzw. keine umfassende Business Intelligence Lösung ersetzen. Es bleibt die Notwendigkeit, Daten sinnvoll zu strukturieren und homogen abzulegen, bspw. dem Data Vault Ansatz folgend. Für derartige Strukturen sind Transformationen (also das „T“) essentiell.

Klassisch werden in Business Intelligence Lösungen Datenquellen via ETL angebunden. Zunehmend populärer wird ELT, also das Extrahieren und Laden ohne Strukturveränderung mit nachträglicher Transformation direkt in der Datenbank. Gerade in Cloud-basierenden Data Warehouses wie Snowflake kann dieser ELT-Ansatz seine Vorteile zur Geltung bringen, da die Rechenpower der Datenbank fast beliebig und insbesondere bedarfsgerecht skaliert werden kann.

EL-Werkzeuge wie Stitch können dann eine wichtige Rolle spielen: sie bringen die Daten ohne Strukturveränderung vom Quellsystem in die Staging Area des Data Warehouses. Von dort ausgehend können die Transformationen mit einem separaten Werkzeug oder über die direkten Mechanismen der Datenbank vorgenommen werden.

Stitch + Talend = EL + T?

In einer Gesamtarchitektur mit Talend sind durchaus auch Mischungen der Werkzeuge denkbar. Insbesondere bei der Verwendung eines Data Warehouse in der Cloud (bspw. Snowflake) können Daten aus ebenfalls Cloud-basierenden Quellsystem auf einfache Weise via Stitch in die Staging Area transportiert werden. Andere Datenquellen werden dann über die klassische Talend Datenintegration mit seiner vollen Mächtigkeit angebunden. Innerhalb des Data Warehouses wird schließlich Talend verwendet um die erforderlichen Strukturveränderungen durchzuführen und die Daten zum eigentlichen Ort der Auswertungen (typischerweise Data Marts) zu bewegen.

Zu berücksichtigen ist allerdings, dass in der realen Welt die Anforderungen zunehmend komplexer werden. Zum Beispiel sollen Daten nahe Echtzeit verarbeitet werden, Daten sind semistrukturiert oder unstrukturiert und Themen Governance und Datenqualität gewinnen an Gewicht. Hier kann die vollumfängliche, moderne Datenintegrationsplattform Talend dann ihre volle Stärke ausspielen.

Stitch  + Talend >> ELT

Stitch ergänzt Talend um ein einfaches, schnell zu erlernendes EL-Werkzeug. Talend selbst ist aber weitaus mehr als das fehlende „T“. Um die Ausgangsfrage also zu beantworten: Stitch + Talend = EL + Talend, das wiederum ist aber eine echte Obermenge von EL + T.