Mit einer Datentypanalyse den Datentyp für das Data Warehouse evaluieren

Die Datentypanalyse ist eine eher technisch orientierte Analysemethode, die vor allem bei unbekannten Daten angewendet wird.

Die Datentypanalyse ist eine einfache, eher technisch orientierte Analysemethode, die insbesondere bei unbekannten Daten angewendet wird. Bei Textdateien oder Quellen mit abweichenden Datenformaten (zum Beispiel beim Zugriff auf ein anderes Datenbanksystem) lässt sich damit der passende, fachlich korrekte Datentyp für die Speicherung im Data Warehouse identifizieren. Zunächst stellt der Datenanalyst den in den Metadaten (zum Beispiel im Data Dictionary einer Datenbank) dokumentierten physikalischen Datentyp fest. Anschließend analysiert er alle zu diesem Datentyp gehörenden Attributwerte und leitet daraus den tatsächlichen, korrekten physikalischen Datentyp (wie zum Beispiel NUMBER) ab.

Zusätzlich zum Datentyp analysiert der Analyst auch noch die Länge, Genauigkeit (zum Beispiel bei NUMBER die Stellen vor und nach dem Komma), den vorherrschenden Datentyp sowie die davon abweichenden Werte.

Weicht der dokumentierte von dem dominanten Datentyp ab, ist der dokumentierte Datentyp in der Regel ein alphanumerischer. Denn in einem alphanumerischen Datentyp lassen sich fast alle Werte der anderen Datentypen abspeichern. Die Ursachen sind vielfältig: Nicht alle Quellsysteme (zum Beispiel Legacy-Systeme) unterstützen jeden Datentyp (zum Beispiel DATE), insbesondere kommaseparierte Textdateien lassen nur alphanumerische Datentypen zu. Oder die Werteliste enthält nicht zum originären Datentyp passende „Ausreißer“ zur Kennzeichnung besonderer Werte. Zum Beispiel bedeutet in einem ENDEDATUM der für ein Datum nicht zulässige Wert 33.3333, dass der Zeitraum offen ist und noch kein Ende-Datum festgelegt wurde. Oder die Abweisung nicht zum Datentyp passender Werte ist ausgeschaltet, um auch die unzulässigen Werte zu speichern. Diese werden dann erst in einem nachfolgenden Prozess bereinigt oder zum Nachweis archiviert.

Auch wenn diese Gründe im Einzelfall nachvollziehbar sind, korrumpieren sie das Data Warehouse und umgehen die vorhandenen Validierungsprüfungen. Damit die Datenqualität nicht leidet, sollte der Daten-Analyst diese Zweckentfremdung verhindern, indem er in die ETLProzesse eine Datentyp-Validierung nebst zugehörigem Datenfehlermanagement integriert.

Die Ergebnisse einer Datenanalyse lassen sich folgendermaßen interpretieren: Zunächst werden die Attribute betrachtet, bei denen der dokumentierte und der dominante (= häufigste) Datentyp voneinander abweichen. Die Attribute BERUFSGRUPPEN_NR und BILDUNGS_NR sind als Text (VARCHAR2) definiert, enthalten aber zu 72,5 bzw. 97,1 Prozent Zahlen (NUMBER). Man überprüft deshalb, ob es sich fachlich tatsächlich um Attribute dieses Datentyps handelt (wie der Attributname vermuten lässt) und warum es auch Werte gibt, die keine Zahlen enthalten. Dürfen diese Attribute ausschließlich Zahlen enthalten, so ist der dokumentierte Datentyp zu aktualisieren. Außerdem sollte man in Betracht ziehen, bei der Verarbeitung dieser Daten die Attributwerte auf den korrekten Datentyp zu überprüfen.

Auch bei den anderen Attributen gibt es Auffälligkeiten: So bestehen bei der ANREDE nur 99 Prozent der Werte aus Text, was unplausibel erscheint. Die weitere Analyse der bweichenden Werte zeigt, dass es Datensätze mit unkorrekten Werten (hier Zahlen 1 bis 3) gibt. Dies bestätigt auch ein Wert für die minimale Länge von 1, der unplausibel für eine Anrede erscheint. Unplausibel ist auch, dass das Attribut ANZ_KINDER 2,3 Prozent nichtnumerische Werte enthält. Die BERUFSGRUPPE enthält hingegen 12,3 Prozent nicht alphanumerische Zeichen, weshalb die abweichenden Werte ebenfalls überprüft und validiert werden.

Entsprechendes gilt für die Attribute BILDUNG, BRANCHE und EINKOMMENSGRUPPE. Sehr oft vertreten Entwickler und Analysten die Meinung, dass der physikalische auch immer der fachlich korrekte Datentyp ist. Das ist so nicht richtig: Der physikalische Datentyp gibt lediglich an, wie die Werte technisch abgespeichert werden sollen; er ist abhängig von den in der jeweiligen Umgebung (zum Beispiel Datenbank) unterstützten Datentypen. Mit Hilfe einer Überprüfung der physikalischen Datentypen werden ausschließlich Werte validiert. Sie sind aber zu unspezifisch, um damit inkorrekte Werte zu identifizieren. Dazu muss diese Analyse durch weitere Methoden, wie eine Muster-Analyse, ergänzt werden.

Die Analyse der zusätzlichen Eigenschaften eines Datentyps wie Länge und Genauigkeit scheint auf den ersten Blick zweitrangig, führt aber bei bestimmten Fragen oft zu wichtigen Hinweisen.

Insbesondere die Länge eines alphanumerischen Datentyps sollte man beachten. Weicht die dokumentierte Länge sehr stark von der maximalen oder dominanten Länge ab, so liegt vermutlich eine Zweckentfremdung dieses Attributes vor. Ist zum Beispiel das Attribut LANGBESCHREIBUNG eines Artikels mit einer Länge von 100 Zeichen dokumentiert, hat die Analyse hingegen eine maximale Länge von drei Zeichen ergeben, so ist das sehr verdächtig. Diese Werte sind dann näher zu betrachten und mit dem Fachbereich zu diskutieren. Entweder wurde das Attribut seit Betriebsbeginn zur Speicherung anderer Informationen zweckentfremdet oder es liegt ein Datenfehler vor, da zum Beispiel ein fehlerhafter Prozess nur die ersten Zeichen in das Attribut gespeichert hat.

Ergibt die Analyse hingegen eine maximale Länge von 98 Zeichen, 70 Prozent der Werte haben aber die dominante Länge von drei Zeichen, lässt das auf einen anderen, ansonsten sehr schwer zu findenden Fehler schließen: Bis zu einem bestimmten Zeitpunkt enthielt das Attribut tatsächlich Beschreibungstexte, anschließend wurde es zweckentfremdet und andere Informationen darin gespeichert.

Passen die durch Analyse ermittelte maximale, minimale und dominante Länge mit der dokumentierten zusammen, so kann man durch Analyse der Verteilung der Längen noch Fehler finden. Beispielsweise ist in Abbildung II.2.5 zu sehen, dass 7 Prozent der Werte für das Attribut NAME eine Länge zwischen ein und drei Zeichen haben. Da dieser Anteil auf den ersten Blick zu hoch erscheint, müssen nachfolgend die zugehörigen Werte näher analysiert und auf fehlerhafte Einträge überprüft werden.

Auch bei der Genauigkeits-Analyse deutet eine Abweichung zwischen dokumentierter und vorhandener Genauigkeit auf eine Zweckentfremdung hin. Sie zeigt aber auch, ob die Genauigkeit den fachlichen Ansprüchen gerecht wird. Soll in einem Unternehmen zum Beispiel die Kennzahl UMSATZ auf den Cent genau berechnet werden, so müssen alle an der Berechnung dieser Kennzahl beteiligten Werte die dafür erforderliche Genauigkeit besitzen. Ansonsten kommt es bei der Berechnung zu unerwünschten Rundungsfehlern, welche die Korrektheit der Kennzahl vermindern. Es reicht also nicht aus, dass nur die Kennzahl UMSATZ die erforderliche Genauigkeit besitzt. Auch die Berechnungsformeln und die Herkunft der verwendeten Werte müssen bekannt sein. Zudem lassen sich mit der Genauigkeits-Analyse auch Rundungen von Werten identifizieren.

Über den Autor:

Dr. Carsten Bange ist geschäftsführender Gesellschafter des Business Application Research Centers (BARC). Er ist seit mehr als 10 Jahren für nationale und internationale Unternehmen verschiedenster Branchen und Größen im Rahmen der Strategie- und Architekturberatung, Werkzeugauswahl und Qualitätssicherung in Business-Intelligence- und Datenmanagement-Projekten tätig. Als neutraler Beobachter des Softwaremarktes ist er ein häufiger Redner bei Tagungen und Seminaren sowie Autor zahlreicher Fachpublikationen und Marktstudien.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Erfahren Sie mehr über Datenanalyse

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close