Data Virtualization: Analytics ohne Data Warehouse

Beim klassischen Business Intelligence Ansatz werden Daten zentral im Data Warehouse vorgehalten, das dann als Grundlage für Auswertungen dient. Ein Vorteil liegt in der Zentralisierung: Die Anbindung, Strukturierung und Bereitstellung von Daten erfolgen an zentraler Stelle. Insgesamt können somit eine definierte Qualität sichergestellt und Governance-Aspekte berücksichtigt werden.

Die Kehrseite der Medaille ist jedoch häufig die fehlende Agilität: Der zentrale Ansatz erweist sich als Flaschenhals. Zwar sind die Kerndaten einer Organisation in aller Regel berücksichtigt. Wenn Fachanwender oder Analysten aber spezielle Daten im Data Warehouse ergänzt haben möchten, kann dies Monate oder sogar Jahre dauern, insbesondere wenn die Anforderung keine hohe Priorität genießt. „Zeitfresser“ sind dabei die Definitionen im Data Warehouse sowie die angrenzenden ETL-Prozesse, mit denen die Daten aus dem Quellsystem in das Data Warehouse überführt und dabei häufig auch transformiert und normalisiert werden. Für die Fachanwender ist dies frustrierend und führt zu Lösungen im Bereich der „Schatten-IT“: Häufig erfolgen Auswertungen auf alternativen Datenbeständen oder unter Zuhilfenahme von Excel. Für IT-Verantwortliche eine inpraktikable, chaotische Situation, bei der nicht mehr sichergestellt werden kann, dass die Daten korrekt oder aktuell sind und wer Zugriff auf welche Daten hat.

Für diese Herausforderung gibt es unterschiedliche Lösungsansätze. Ein solcher Ansatz ist die Datenvirtualisierung.

Bei der Datenvirtualisierung werden die Daten nicht in ein zentrales Data Warehouse kopiert, sondern direkt aus dem Quellsystem ausgelesen. An zentraler Stelle werden die Verbindungen zu Quellsystemen sowie deren Datenstrukturen und Zusammenhänge zwischen den Daten definiert. Somit bleiben die Vorteile der Zentralisierung. Hingegen entfallen die ETL-Prozesse, und die Datenstrukturierung vereinfacht sich erheblich. Dabei werden die Daten im Wesentlichen so verwendet, wie sie vorliegen – also insbesondere ohne eine starke Normalisierung und Historisierung.

Der wesentliche Vorteil dieses Ansatzes ist die Agilität, die nicht zu Lasten von Governance-Aspekten geht. Neue Datenquellen oder Datenstrukturen stehen in kürzester Zeit zur Verfügung. Gleichzeitig kann an zentraler Stelle ihre Verwendung berechtigt und dokumentiert werden. Dies nimmt viel Druck von IT-Verantwortlichen, die eine schnelle Lösung für Anforderungen liefern können, um dann die erforderlichen Anpassungen an ETL-Prozessen bei Bedarf sauber zu implementieren. Durch die logische Schicht der Datenvirtualisierung kann später die Datenquelle für den Anwender transparent ausgetauscht werden.

Unser Partner TIBCO hat mit TIBCO Data Virtualization (TDV) eine marktführende Lösung für die Datenvirtualisierung im Portfolio. TDV ist ursprünglich als eigenständige Lösung entstanden, wurde später von Cisco gekauft und schließlich von TIBCO übernommen. Das Produkt hat das Marktsegment Datenvirtualisierung mit definiert, es verfügt über eine entsprechend lange Historie und ist bei Organisationen jeder Größenordnung weltweit im Einsatz. Insbesondere wird diese Lösung auch „Enterprise-Anforderungen“ gerecht.

Als eingeschränkte und stark kostenreduzierte Variante steht TDV auch im Rahmen von TIBCO Spotfire zur Verfügung. Hier übernimmt es dann die Funktion der virtuellen Datenzugriffsschicht, die Adapter zu allen gängigen Systemen (wie z. B. SAP oder Salesforce.com) und Datenformaten (wie z.B. XML und json) unterstützt sowie Verbindungen der Daten untereinander ermöglicht.

Haben Sie weitere Fragen zum Thema Datenvirtualisierung? Sprechen Sie uns gerne an.
(Tanja Menke, +49 231 / 533 831 259, tibco@quinscape.de)

Data Virtualization: Analytics ohne Data Warehouse