Blog | Trusted Data – oder: die Unerlässlichkeit der Vertrauensbildung

Von W. Edwards Deming stammt die berühmte Forderung: “In God we trust, all others must bring data.” Das ist wunderbar auf den Punkt gebracht. Aber der Anspruch geht heute ein Stück weiter. Angesichts der sogenannten Datification der Geschäftsmodelle und den immensen Folgen manipulierter Daten sollte der Satz schärfer formuliert lauten: „… must bring trusted data“.

Herzlich schlecht ist es, wenn Geschäftsmodelle nicht daten-getrieben sind oder Daten innerhalb des Unternehmens als Abteilungs-Asset abgeschirmt werden („An die Bilddaten kommen wir erst, wenn Herr Maier in 2 oder 3 Jahren in Rente geht.“). Aber dies bildet schon länger nicht mehr die typische Realität in Unternehmen ab. Die Herausforderungen heute sind weitaus vielfältiger.

Betrachten wir einige typische Daten-Szenarien:

mein Supermarkt-Bon an der Kasse fließt mit seinen Daten ein in die Vorratsplanung und die Lieferdringlichkeit der angeschlossenen Logistik
mein Auto nutzt die Daten der Fahrzeuge vor mir über die Beschaffenheit der Fahrbahn
ein intelligenter Bot gibt mir Empfehlungen für meinen nächsten Online-Kauf
ein medizinisches Bildanalyseprogramm gibt meinem Arzt Hinweise auf meinen Gesundheitszustand.

Was, wenn das Warenlager aufgrund falscher Bon-Daten nicht gefüllt wird, wenn mein Fahrzeug falsche Wetterinfos aus der Cloud bekommt, wenn Bots mich manipulieren oder medizinische Daten false-positive sind? Die wirtschaftlichen oder gesundheitlichen Konsequenzen können gravierend sein. Nur wenn wir aus gutem Grund und mit hoher Sicherheit von vertrauenswürdigen Daten ausgehen können, werden aus Daten wertvolle Informationen und – letztlich – gute Entscheidungen. Falsche, verzerrte, „schmutzige“, unvollständige Daten sind für jeden Geschäftsprozess und das maschinelle Lernen aus Daten ein Graus (risk exposure). Besonders drastisch ist die Herausforderung, wenn Daten z. T. im Millisekunden-Bereich entstehen und sich jeglicher menschlicher Prüfung auf Anomalien entziehen. Die Bedeutung der Vertrauenswürdigkeit von Daten geht offenkundig weit über das Thema DSGVO hinaus.

Soweit, so klar. Nur: Wie weiß ich, ob die Quelle meiner Daten oder deren Transportwege vertrauenswürdig sind, meine Daten also stimmen? Und was bedeutet „stimmen“? Wie messe ich das? Welchen „Stimmigkeitsgrad“ benötige ich überhaupt? Wie erkenne ich unbeabsichtigte oder missbräuchliche Datentransformationen?

Angesichts der Digitalisierung der Geschäftsmodelle stellen sich solche Fragen mit jedem neuen Datensatz. Die Qualitätssicherung von Daten, die Analyse der Datennutzung und der Schutz vor Datenmanipulation ist essenziell.

Zu gewährleisten sind

Vertraulichkeit, d. h. der Schutz vor unberechtigter Offenlegung
Integrität, d. h. Daten dürfen nicht unerlaubt ergänzt, modifiziert, gelöscht, umgeordnet, dupliziert oder wiedereingestellt werden
eine Verfügbarkeitsbegrenzung, d. h. Daten dürfen nur berechtigten Personen verfügbar, zugänglich und nutzbar gemacht werden.

In grauer Vorzeit reichte oft ein Zaun um das Betriebsgelände, ein Pförtner und ein Wachmann mit einem scharfen Hund, um Sicherheit herzustellen. Aber das ist wirklich lange vorbei. Der Wert steckt heute weniger im Warenlager, der Wert von Unternehmen liegt zunehmend in den Daten über die Produktion, die Auftragsdetails, die CAD- und Testsystemen in der Entwicklungsabteilung. On top kommen dann noch gesetzliche Anforderungen an den Datenschutz und die Informationssicherheit oder – wie in der Pharmaindustrie – an die Dokumentation der Produktionsbedingungen. Gerade im Pharmabereich muss ggf. noch viele Jahre später belegt werden, dass die Daten vertrauenswürdig sind.

Was also tun? Nun, die allgemeine Antwort fällt leicht: Digitalisierung kostet. So, wie die Umstellung vom Webstuhl zur Webmaschine ein mutiges Investment verlangte, so erfordern Digitalisierung und Datenmanagement signifikante Investitionen – und zwar auch in den Schutz der „virtuellen Wachleute“. Meines Erachtens bedarf es eines gestalterischen Willens in den beiden Dimensionen Manpower und Technologien:

Explizite organisatorische Festlegungen und Verantwortlichkeiten für die Sicherung der Qualitäts- und Vertrauensanforderungen (Chief trust officer, data steward für „seine Daten“, Informationssicherheitsbeauftragten u. Ä.). Hier ist zunächst die C-Ebene mit ihrer Organisationsverantwortung gefragt, um die Prozesse und Regeln für das Datenmanagement aufzuspannen (data governance);
Digitale Lösungen: Diese reichen von den typischen Maßnahmen zur Absicherung von Unternehmensnetzwerken bis hin zu umfassenden Konzepten für die Aufzeichnung von Datenherkunft, Datennutzung, Aufbewahrungsfristen u.a.m. Hier spielen zunehmend Werkzeuge für die Datenkatalogisierung, die Datenverfolgung (data lineage) und das Metadatenmanagement eine zentrale Rolle.

Es ist unbestreitbar, dass Datenvertrauen ein zentrales Element einer Digitalisierungsstrategie ist oder werden muss. Trust by design ist eine zentrale Herausforderung der Zukunft. Die gute Nachricht: Unternehmen wie Talend oder TIBCO stellen Tools für „Automating Trust“ zur Verfügung, die es mit modernen Ansätzen auch des Machine Learnings erlauben, das notwendige Vertrauensniveau zu sichern.

Weiter interessante Inhalte zum Beitrag:

WEBINAR: Wie man Datengesundheit misst und verbessert – Der Talend Trust Score

Blog | Trusted Data – oder: die Unerlässlichkeit der Vertrauensbildung