Data Profiling
Data Profiling, auch unter dem Begriff „Daten-Archäologie“ bekannt, ist die statistische Analyse und Bewertung der Datenqualität eines Datensatzes. Dabei geht es vor allem um Konsistenz, Eindeutigkeit und Logik der Daten.
Fortsetzung des Inhalts unten


IT-Prioritäten in der Pandemie: Wie COVID-19 die IT-Budgets verändert
2020 brachte ungeahnte Herausforderungen für die IT-Verantwortlichen. Die Pandemie wirkt sich auch auf zukünftige IT-Budgets und -Pläne aus, wie die TechTarget-Umfrage zeigt. Erfahren Sie in diesem E-Guide, welche Veränderungen die Pandemie bei den Prioritäten auslöste.
Die Erkenntisse aus dem Data Profiling können unterschiedlich genutzt werden. Beispielsweise kann das Profiling dazu führen, dass bestehende Daten für andere als die urspünglichen Zwecken nicht verwendet werden können.
Data Profiling lässt auch verwenden, um Metriken bereitzustellen, die die Datenqualität messen. Außerdem kann mit Data Profiling geprüft werden, ob Metadaten die Objektdaten, also die Informationen in den Quelldaten, genau genug beschreiben. Allerdings kann Data Profiling keine falschen, fehlerhaften oder ungenauen Daten identifizieren. Data Profiling kann lediglich die Verletzung von Geschäftsregeln und Anomalien herausfinden.
Bei der Umsetzung von Data Profiling helfen Tools. Profiling Tools bewerten den tatsächlichen Inhalt, die Struktur und die Qualität der Daten. Dazu überprüfen sie die Beziehungen zwischen den Daten, die innerhalb von Datensätzen vorliegen, aber auch die Beziehungen von Daten zwischen verschiedenen Datensätzen.
Ein Datenanalytiker kann zum Beispiel durch die Prüfung der Häufigkeitsverteilung unterschiedlicher Werte in einer Tabellenspalte Einsicht in die Art und Verwendung einer Spalte gewinnen. Eine Cross-Column Analyse kann verwendet werden, um Abhängigkeiten von Zellwerten festzustellen. Die Analyse von mehreren Tabellen erlaubt es dem Analytiker, überlappende Datensätze zu entdecken, die Fremdschlüssel-Beziehungen (Foreign Key Relationships) zwischen Entitäten darstellen.