Im Rahmen unserer Kampagne zu Datenqualität hat unser Gast-Redakteur Andreas Brüggenthies von human IT, Experte für datengetriebene Projekte, mit verschiedenen Experten gesprochen. Für Matthias Bauer, Teamlead Data Science der X-INTEGRATE GmbH aus Köln bildet die Einhaltung einer hohen Datenqualität die Basis, um sich als Data Driven-Unternehmen zu positionieren.
Wie steigen Sie in datengetriebene Projekte ein?
Datengetriebene Projekte, das bedeutet: mit analytischen Erkenntnissen aus dem eigenen Data Set heraus Business-Modelle aufbauen und Korrelationen oder Erkenntnisse, die man aus Daten gewonnen hat, als neue Services verkaufen. Es ist also ein analytisch getriebenes Thema mit allen dazugehörigen Facetten von Machine Learning und Data Science. Und genau deshalb ist in unseren Projekten Datenqualität (gepaart mit Data Governance) auch das grundlegende Erfolgsrezept, um überhaupt „data driven“ zu sein.
Ein Unternehmen hat seine Datenqualität im Griff, wenn es über saubere und aktuelle Daten verfügt. Das heißt, Daten liegen zum richtigen Zeitpunkt am richtigen Ort vor, sei es beim Kunden, beim Nutzer etc. Ist dies der Fall, hat ein solches Unternehmen damit natürlich einen klaren Wettbewerbsvorteil.
Wie kommunizieren Sie plakativ mit Ihren Kunden über Daten und Ziele?
Datenqualität bei Stammdaten ist ein fachbereichsübergreifendes Thema und deshalb schwer anzugehen, weil hier verschiedene Prozesse ineinandergreifen. Deshalb bauen wir in Kundenprojekten zum Datenmanagement zunächst einen Qualitätsindex (Quality Score) auf. Dabei betrachtet man die Qualität der von seinen Lieferanten bereitgestellten Daten zu einem bestimmten Stichtag. Nicht nur im Hinblick auf ihre Syntax, sondern auch, ob sie im richtigen Kontext zum jeweiligen Geschäftsbereich übermittelt wurden. Wir lassen unsere Kunden also einige Grundregeln an Datenqualitäts- bzw. Validierungs-Checks aufstellen. Über bildet sich dann der Index, auf Basis dessen man an der Datenqualität arbeiten kann. Mit einem solchen Score kann man seine Lieferanten auch im Einkaufsprozess steuern bzw. abhängig davon auswählen.
Welche Funktionen wünschen Sie von Software zur Verbesserung von Datenqualität?
Richtig eingeführt, funktionieren solche Softwareprodukte gut, die die Datenqualität anhand ihrer Syntax erkennen. Aus einer Datenbank mit etwa Kreditkartennummern die validen Nummern herausfinden. Wenn Unternehmen aus verschiedenen Datenquellen Adressinformationen in unterschiedlichen Schreibweisen erhalten, können sie dazu algorithmenbasiert sehr gut einen Golden Record (oder Single Point of Truth) entwickeln. Geht man allerdings eine Stufe weiter, von der syntaktischen hin zur inhaltlichen Prüfung (also zur Bedeutung eines Datensatzes in seinen verschiedenen Kontexten), wird es schon viel schwieriger. Hier gibt es am Markt derzeit noch zu wenig technisch ausgereifte Lösungen.