Im Rahmen der Tagung der Deutschen Data Vault User Group (DDVUG e.V.) habe ich an einem Kundenbeispiel illustriert, wie und warum wir ein Data Warehouse auf Basis von Data Vault modernisiert haben. Einige übergreifende Aspekte hiervon möchte ich nachfolgend allgemeiner zusammenfassen.

 

Warum Data Warehouse Modernisierung?

Das Data Warehouse (DWH) ist das zentrale Datenlager eines Unternehmens. Ein einer Zeit von „Daten als Öl“ oder „Daten als vierter Produktionsfaktor“ liegt auf der Hand, dass das DWH zum zentralen Organ eines Unternehmens wird und an Wichtigkeit gewinnt. Dennoch sind viele DWHs in die Jahre gekommen und werden den Anforderungen von heute nicht mehr gerecht. Wir haben es immer häufiger mit unstrukturierten und semistrukturierten Daten zu tun, sehr großen Datenmengen („Big Data“) und Daten, die vergleichsweise schnell verarbeitet werden müssen („Near Real-Time“). Das traditionelle DWH wird neuen Business Cases vielfach nicht gerecht.

DWH Modernisierung: Austausch des Fundaments

Es gibt unterschiedliche Ausprägungen der DWH Modernisierung angefangen von einer reinen System Modernisierung (ohne sonstige Veränderung) bis zum kompletten Neubau.

Wir treffen in der Praxis häufig auf die Herausforderung einer Teil-Ersetzung, bei der sukzessive Teile des DWH durch eine neue Architektur ersetzt werden. Ziel ist, den Betrieb nicht zu stören, gleichzeitig aber die moderne, zukunftsfähige Grundlage für neue Anwendungen und Business Cases zu schaffen.

Data Vault als gesamtheitliches System

Auch die Methodik und Architektur von DWHs hat sich im Zeitablauf entwickelt. Mittlerweile dominiert Data Vault als gesamtheitlicher Ansatz, der sowohl die Architektur als auch die Modellierung und die Methodik umfasst. Ein wesentlicher Vorteil liegt in der Agilität, die auch bei größeren DWHs schnelle Anpassungen und Erweiterungen möglich macht.

Systemlandschaft

Im Zuge der Modernisierung werden häufig auch die verwendeten Systeme auf den Prüfstand gestellt. Der Data Vault Ansatz macht dabei insbesondere möglich, die zentrale Datenhaltung bei Bedarf auf unterschiedliche Systeme zu verteilen, bspw. Data Lake (als persistente Staging Area, PSA), zwischen Cloud / On-Premise und/oder auf mehrere Standorte.

Immer häufiger setzen Unternehmen dabei auf die Cloud als zentrales Data Warehouse, z. B. auf unser Partnerprodukt Snowflake.

Die klassische Datenintegration – meist bekannt als ETL (Extraktion, Transformation, Load) – kann bei Data Vault in gewissem Umfang automatisiert werden. Insofern sind reine ETL-Tools nicht mehr zeitgemäß. Gefragt sind umfassende Integrationsplattformen, die speziell auch das Metadata-Management und angrenzende Aspekte wie Data Quality und die Echtzeitdatenintegration in Big Data Szenarien abdecken. Unser Partner Talend hat sich konsequent in diese Richtung entwickelt und liefert eine entsprechende, gesamtheitliche Integrationsplattform.

Resümee

Um große Last zu tragen, braucht es ein solides, starkes Fundament. Soll heißen: viele DWHs sind in die Jahre gekommen und taugen nicht als Fundament für die immer umfangreicher und wichtiger werdenden Anforderungen in einem Zeitalter der Daten.

Um hier gerüstet für die Zukunft zu sein, bietet sich in vielen Fällen eine Modernisierung des DWHs an. Bei einer Teil-Ersetzung wird hierbei der laufende Betrieb nicht gestört, gleichzeitig aber ein leistungsfähiges und tragfähiges Fundament für die Zukunft geschaffen.

Technisch sollten die Systeme auf den Prüfstand gestellt und in Hinblick auf ihre Zukunftsfähigkeit und die Vision der Hersteller untersucht werden. In vielen Fällen kann die Cloud eine attraktive Möglichkeit sein um die Betriebskosten zu minimieren und teilweise auch Ladestrecken zu vereinfachen. So ist bspw. für weltweit verteilt anfallende Sensordaten die Cloud der natürlich Speicherort.

Bezüglich Methodik, Architektur und Modellierung hat sich Data Vault mittlerweile etabliert. Im Vergleich zu klassischen Ansätzen (3NF, Star Schema) wird die Agilität dramatisch begünstigt: das DWH kann sukzessive erweitert werden und ist konzeptionell vorbereitet auf eine Zeit von Big Data, Cloud und Real-Time.