Einführung in das Data Profiling

Unter Data Profiling versteht man den weitestgehend automatisierten Prozess zur Analyse vorhandener Datenbestände.

Unter Data Profiling versteht man den weitestgehend automatisierten Prozess zur Analyse vorhandener Datenbestände. Verschiedene Analysetechniken liefern Informationen über Inhalt, Strukturen und Qualität der Daten.

Data Profiling validiert die existierenden Metadaten durch Vergleich mit den vorhandenen Echtdaten, wobei auch neue, bisher nicht bekannte Metadaten gefunden werden. Darüber hinaus kann man bekannte Datenqualitätsprobleme verifizieren und neue Probleme anhand der Daten identifizieren. Die Fehler in den Daten werden nicht behoben, das geschieht erst in einem nachfolgenden Schritt und ist kein Teil des Data-Profiling-Prozesses. Fehlerhafte Metadaten hingegen werden korrigiert. Durch das Data Profiling erhält man in Form eines Assesments eine Aussage über die Datenqualität der analysierten Daten.

Data Profiling muss möglichst frühzeitig eingesetzt werden - je früher desto besser. Nur wer verlässliche Aussagen über die Qualität seiner Daten hat, schafft es sein Projekt realistisch zu planen und die Meilensteine zu halten. Nur so kann man sich vor unliebsamen Überraschungen schützen, die zu einer Explosion des Aufwands führen und den Projekt-Endetermin in weite Ferne rücken lassen. Mehr als 80 Prozent aller datenlastigen Projekte überschreiten ihre Termine, ihr Budget oder gehen mit vermindertem Funktionsumfang produktiv. Qualitätsaussagen anderer Personen sollte man hingegen grundsätzlich misstrauen, da diese häufig auf Wunschdenken oder Unkenntnis beruhen.

Der Einsatz von Werkzeugen für das Data Profiling lohnt sich, da sie den Ressourcenaufwand erheblich reduzieren. Besonders bei wiederholter Anwendung ist der Aufwand wesentlich geringer als ohne Werkzeugeinsatz. Zusätzlich können gewonnenen Data-Profiling-Ergebnisse schnell und einfach an anderen Stellen (wie dem Monitoring während der ETL-Prozesse oder dem Datenqualitäts-Reporting) verwenden werden.

Über den Autor:

Detlef Apel ist Senior-Berater im Center of Competence Business Intelligence bei Capgemini. Sein Spezialgebiet ist das Informationsqualitätsmanagement in allen Facetten, in dem er seit vielen Jahren große Unternehmen verschiedener Branchen erfolgreich bei Konzeption, IT-Architektur, Optimierung, Realisierung und Einführung berät und unterstützt. Als Redner auf verschiedenen Konferenzen sowie als Autor diverser Fachartikel und des Fachbuchs „Datenqualität erfolgreich steuern – Praxislösungen für Business-Intelligence-Projekte“ stellt er sein Wissen und seine langjährigen Projekterfahrungen der DWH-/BI-Gemeinschaft zur Verfügung.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Erfahren Sie mehr über Big Data

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close