denisismagilov - stock.adobe.com

Feature

Wie man größere Probleme bei der Datenaufbereitung bewältigt

Datenaufbereitung ist ein wichtiger Bestandteil der Datenanalyse, doch sie ist kompliziert. Sieben Herausforderungen, die den Prozess erschweren, und wie man sie bewältigt.

von

Rick Sherman, Athena IT Solutions

Zuletzt aktualisiert: 05 Dez. 2022

Das Aufkommen von Self-Service-BI-Tools ermöglichte es Mitarbeitern außerhalb der IT-Abteilung, Daten zu analysieren und selbständig Datenvisualisierungen und Dashboards zu erstellen. Das war großartig, wenn die Daten für die Analyse bereit waren. Doch es stellte sich heraus, dass der größte Teil des Aufwands bei der Erstellung von Business-Intelligence-Anwendungen in der Datenaufbereitung lag. Das ist auch heute noch so – und zahlreiche Herausforderungen erschweren den Datenaufbereitungsprozess.

Diese Herausforderungen werden zunehmend von Geschäftsanalysten, Datenwissenschaftlern, Dateningenieuren und auch Nicht-IT-Anwendern bewältigt. Das liegt daran, dass Softwareanbieter Self-Service-Tools für die Datenaufbereitung entwickelt haben. Diese Tools ermöglichen es BI-Benutzern und Data-Science-Teams, die erforderlichen Datenaufbereitungsaufgaben für Analyse- und Datenvisualisierungsprojekte durchzuführen. Sie beseitigen jedoch nicht die Komplexität der Datenaufbereitung.

Warum ist eine effektive Datenaufbereitung wichtig?

In modernen Unternehmen steht eine Flut von Daten zur Verfügung, die analysiert und verarbeitet werden können, um die Geschäftsabläufe zu verbessern. Die Daten, die in Analyseanwendungen verwendet werden, stammen jedoch häufig aus verschiedenen Quellen, sowohl internen als auch externen. Höchstwahrscheinlich sind sie unterschiedlich formatiert und enthalten Fehler, Tippfehler und andere Probleme mit der Datenqualität. Einige dieser Daten können für die anstehende Arbeit irrelevant sein.

Daher müssen die Daten so aufbereitet werden, dass sie das für die geplanten Analysezwecke erforderliche Maß an Sauberkeit, Konsistenz, Vollständigkeit, Aktualität und Kontext aufweisen. Die richtige Datenaufbereitung ist daher von entscheidender Bedeutung. Ohne sie ist es unwahrscheinlich, dass BI- und Analyseinitiativen die gewünschten Ergebnisse liefern.

Die Datenaufbereitung muss in einem angemessenen Rahmen erfolgen. Das Ziel besteht darin, die Daten für den beabsichtigten Zweck nutzbar zu machen, ohne in eine Analyseparalyse zu verfallen oder endlos nach perfekten Daten zu streben. Aber man darf sie nicht vernachlässigen oder dem Zufall überlassen.

Um erfolgreich zu sein, ist es wichtig, die Herausforderungen zu verstehen, die die Datenaufbereitung mit sich bringt, und zu wissen, wie man sie bewältigen kann. Viele Herausforderungen bei der Datenaufbereitung können unter dem Begriff Datenqualität zusammengefasst werden. Allerdings es ist sinnvoll, sie in spezifischere Fragen zu unterteilen, um die Probleme zu identifizieren, zu beheben und zu managen. In diesem Sinne finden Sie hier sieben Probleme, auf die Sie vorbereitet sein sollten.

1. Unzureichendes oder nicht vorhandenes Data Profiling

Datenanalysten und Geschäftsanwender sollten bei der Durchführung von Analysen niemals vom Zustand der Daten überrascht werden – oder schlimmer noch, ihre Entscheidungen sollten durch fehlerhafte Daten beeinflusst werden, von denen sie nichts wussten. Die Erstellung von Datenprofilen (Data Profiling), einer der wichtigsten Schritte im Datenaufbereitungsprozess, sollte dies verhindern. Es gibt jedoch verschiedene Gründe, warum dies nicht der Fall ist, darunter folgende Szenarien:

Die Personen, die die Daten sammeln und aufbereiten, gehen davon aus, dass die Daten gültig sind, weil sie bereits in Berichten oder Tabellenkalkulationen verwendet wurden. Infolgedessen erstellen sie kein vollständiges Profil der Daten. Sie wissen jedoch nicht, dass die Daten zum Beispiel durch SQL-Abfragen, Ansichten, benutzerdefinierten Code oder Makros manipuliert werden, was die zugrunde liegenden Probleme im Datensatz verschleiert.
Jemand, der eine große Datenmenge sammelt, erstellt nur ein Profil eines Stichproben-Datensatzes, weil es zu zeitaufwändig wäre, einen vollständigen Datensatz zu erstellen. Datenanomalien werden jedoch in den Beispieldaten möglicherweise nicht erkannt.
Benutzerdefinierte SQL-Abfragen oder Tabellenkalkulationsfunktionen, die zur Erstellung von Datenprofilen verwendet werden, sind nicht umfassend genug, um alle Anomalien oder andere Probleme in den Daten zu finden.

Wie lässt sich diese Herausforderung bewältigen? Eine solides Data Profiling muss der Ausgangspunkt für den Datenaufbereitungsprozess sein. Datenaufbereitungs-Tools können dabei helfen: Sie enthalten umfassende Funktionen zur Erstellung von Datenprofilen, um die Vollständigkeit, Sauberkeit und Konsistenz von Datensätzen in den Quellsystemen und anschließend in den Zielsystemen im Rahmen der Datenkuration zu prüfen. Wenn sie gut gemacht ist, liefert die Erstellung von Datenprofilen die Informationen, die erforderlich sind, um viele der in den folgenden Abschnitten aufgeführten Datenprobleme zu erkennen und zu lösen.

2. Fehlende oder unvollständige Daten

Ein häufiges Datenqualitätsproblem sind Felder oder Attribute mit fehlenden Werten, zum Beispiel Nullen oder Leerzeichen, Nullen, die einen fehlenden Wert und nicht die Zahl 0 darstellen, oder ein ganzes Feld, das in einer Datei mit Trennzeichen fehlt. Bei der Datenaufbereitung stellt sich die Frage, ob diese fehlenden Werte auf einen Fehler in den Daten hindeuten, und wenn ja, wie dieser Fehler behandelt werden sollte. Kann ein gültiger Wert ersetzt werden? Wenn nicht, sollte der Datensatz (oder die Zeile) mit dem Fehler gelöscht oder beibehalten werden, aber mit einem Hinweis auf den Fehler versehen werden?

Fehlende Werte und andere Formen unvollständiger Daten können sich negativ auf Geschäftsentscheidungen auswirken, die von Analyseanwendungen getroffen werden, die diese Daten verwenden. Sie können auch dazu führen, dass Datenladeprozesse, die nicht für solche Vorkommnisse ausgelegt sind, fehlschlagen. Dies führt oft zu einem Gedränge, um herauszufinden, was falsch gelaufen ist, und untergräbt das Vertrauen in den Datenaufbereitungsprozess selbst.

Wie lässt sich diese Herausforderung bewältigen? Zunächst müssen Sie ein Datenprofil erstellen, um fehlende oder unvollständige Daten zu ermitteln. Legen Sie dann fest, was je nach geplantem Verwendungszweck der Daten zu tun ist, und implementieren Sie die vereinbarten Fehlerbehandlungsprozesse – eine Aufgabe, die auch mit einem Datenaufbereitungs-Tool erledigt werden kann.

3. Ungültige Datenwerte

Ungültige Werte sind ein weiteres häufiges Problem der Datenqualität. Dazu gehören Rechtschreibfehler, andere Tippfehler, doppelte Einträge und Ausreißer wie falsche Daten oder Zahlen, die im Kontext der Daten nicht sinnvoll sind. Diese Fehler können selbst in modernen Unternehmensanwendungen mit Datenvalidierungsfunktionen entstehen und landen dann in kuratierten Datensätzen.

Wenn die Anzahl der ungültigen Werte in einem Datensatz gering ist, haben sie möglicherweise keine großen Auswirkungen auf Analyseanwendungen. Häufige Fehler können jedoch zu einer fehlerhaften Analyse der Daten führen.

Wie lässt sich diese Herausforderung bewältigen? Die Aufgaben zum Auffinden und Korrigieren ungültiger Daten ähneln denen zum Umgang mit fehlenden Werten: Erstellen Sie ein Profil der Daten, legen Sie fest, was beim Auftreten von Fehlern zu tun ist, und implementieren Sie dann Funktionen zur Behebung der Fehler. Darüber hinaus sollte das Datenprofil laufend erstellt werden, um neue Fehler zu erkennen. Dies ist eine Herausforderung bei der Datenaufbereitung, bei der Perfektion wahrscheinlich nicht erreicht werden kann – einige Fehler werden unweigerlich durchrutschen, aber die Absicht sollte sein, alles zu tun, was nötig ist, um zu verhindern, dass sie sich negativ auf analysegestützte Entscheidungen auswirken.

4. Standardisierung von Namen und Adressen

Ein weiteres Problem der Datenqualität, das die Datenaufbereitung erschwert, ist die Inkonsistenz der Namen und Adressen von Personen, Unternehmen und Orten. Bei dieser Art von Inkonsistenz handelt es sich um legitime Variationen dieser Daten, nicht um Rechtschreibfehler oder fehlende Werte. Wenn sie jedoch bei der Datenaufbereitung nicht erkannt werden, können solche Inkonsistenzen BI- und Analyse-Anwender daran hindern, einen vollständigen Überblick über Kunden, Lieferanten und andere Unternehmen zu erhalten.

Beispiele für Unstimmigkeiten bei Namen und Adressen sind:

ein verkürzter Vorname oder Spitzname im Vergleich zum vollständigen Namen einer Person, zum Beispiel Fred in einem Datenfeld und Frederick in einem anderen
mittlere Initiale im Vergleich zum mittleren Namen
Unterschiede bei Präfixen und Suffixen, wie zum Beispiel Hr. versus Herr, Fr. versus Frau
buchstabierte versus abgekürzte Ortsangaben, wie Straße versus Str., Etage versus Etg. oder Bayern versus BY
Akronyme im Vergleich zu vollständigen Firmennamen, wie BMW und Bayerische Motoren Werke für den Automobilhersteller
Unternehmen werden abwechselnd mit und ohne GmbH., Co. KG und anderen Suffixen am Ende ihres Namens aufgeführt

Wie lässt sich diese Herausforderung bewältigen? Die Quelldatenschemata müssen untersucht werden, um festzustellen, welche Namens- und Adressfelder enthalten sind, und dann müssen die Daten profiliert werden, um den Umfang der Inkonsistenzen zu ermitteln. Danach gibt es drei optimale Möglichkeiten, die Daten zu standardisieren:

Erstellen von benutzerdefinierten Standardisierungsprozessen unter Verwendung der String-Handling-Funktion eines Datenaufbereitungs-Tools
Verwendung der vorgefertigten Funktionen zur Standardisierung von Namen und Adressen in einem Datenaufbereitungs-Tool
Verwendung eines Tools eines Softwareanbieters, der sich auf die Standardisierung von Namen und Adressen spezialisiert hat, idealerweise eines, das sich in Ihr Datenaufbereitungs-Tool integrieren lässt

5. Inkonsistente Daten in verschiedenen Unternehmenssystemen

Inkonsistente Daten sind auch häufig anzutreffen, wenn mehrere Datenquellen für Analysen benötigt werden. In diesem Fall können die Daten in den einzelnen Quellsystemen korrekt sein, aber die Inkonsistenz wird zu einem Problem, wenn Daten aus verschiedenen Quellen kombiniert werden. Dies ist eine allgegenwärtige Herausforderung für die Mitarbeiter, die für die Datenaufbereitung zuständig sind, insbesondere in großen Unternehmen.

Abbildung 1: Diese Probleme erschweren den Prozess der Datenaufbereitung für BI- und Analyseanwendungen.

Wie lässt sich diese Herausforderung bewältigen? Wenn die Dateninkonsistenz darauf zurückzuführen ist, dass ein Attribut wie zum Beispiel ein ID-Feld in verschiedenen Systemen unterschiedliche Datentypen oder Werte hat, kann sie durch Datenkonvertierung oder Cross-Reference Mapping relativ einfach behoben werden. Wenn die Inkonsistenz jedoch darauf zurückzuführen ist, dass die Geschäftsregeln oder Datendefinitionen in den verschiedenen Quellsystemen unterschiedlich sind, muss eine Analyse durchgeführt werden, um die Datentransformationen zu bestimmen, die bei der Vorbereitung der Daten implementiert werden können.

6. Datenanreicherung

Einer der wichtigsten Schritte bei der Schaffung des für die Analyse erforderlichen Geschäftskontextes ist die Anreicherung der Daten. Beispiele für Maßnahmen zur Datenanreicherung sind:

die Berechnung von Geschäftsmetriken und KPIs
das Filtern von Daten auf der Grundlage von Geschäftsregeln, die für die geplanten Analysen gelten
die Anreicherung von Daten mit zusätzlichen internen oder externen Quellen
Ableitung zusätzlicher Daten aus einem bestehenden Datensatz

Die Anreicherung von Daten ist jedoch keine leichte Aufgabe. Die Entscheidung, was in einem Datensatz getan werden muss, ist oft kompliziert, und die erforderliche Datenanreicherung kann ein zeitaufwändiges Verfahren sein.

Wie lässt sich diese Herausforderung bewältigen? Die Datenanreicherung sollte mit einem umfassenden Verständnis der geschäftlichen Anforderungen und Ziele für Analyseanwendungen beginnen. Dies erleichtert die Identifizierung von Geschäftskennzahlen, KPIs, erweiterten Daten und anderen Anreicherungen, die zur Erfüllung dieser Anforderungen erforderlich sind, und die anschließende Definition von Filtern, Geschäftsregeln und Berechnungen zur Generierung der angereicherten Daten.

7. Aufrechterhaltung und Erweiterung von Datenaufbereitungsprozessen

Obwohl Data Scientists und andere Analysten viele Ad-hoc-Aufgaben ausführen, werden die wichtigeren Datenaufbereitungsarbeiten, die sie durchführen, unweigerlich zu einem wiederkehrenden Prozess, der dann in seinem Umfang erweitert wird, wenn die resultierenden Analysen immer wertvoller werden. Unternehmen stoßen dabei jedoch häufig auf Probleme, insbesondere wenn sie benutzerdefinierte Datenaufbereitungsmethoden verwenden.

Zum Beispiel weiß in der Regel nur die Person, die den Datenaufbereitungsprozess erstellt hat, was passiert und warum, wenn es keine Dokumentation des Prozesses oder der Datenherkunft gibt und wo die Daten verwendet werden. Die Abhängigkeit von diesen Personen erfordert, dass sie immer mehr Zeit für diese Prozesse aufwenden, und macht es schwierig, die Datenaufbereitungsarbeit aufrechtzuerhalten, wenn sie das Unternehmen verlassen.

Wenn Änderungen oder Erweiterungen an einem Datenaufbereitungsprozess erforderlich sind, wird der Prozess durch das Hinzufügen von neuem Code zudem unsicherer und schwieriger zu warten.

Wie lässt sich diese Herausforderung bewältigen? Datenaufbereitungs-Tools können Ihnen helfen, diese Fallen zu vermeiden und einen langfristigen, nachhaltigen Erfolg bei der Datenaufbereitung zu erzielen. Sie bieten Produktivitäts- und Pflegevorteile, wie zum Beispiel vorgefertigte Verbindungen zu Datenquellen, Funktionen für die Zusammenarbeit, Nachverfolgung der Datenreihenfolge und des Verwendungszwecks sowie automatische Dokumentation, häufig mit grafischen Workflows.

Fazit

Um bei der Datenaufbereitung erfolgreich zu sein, müssen Sie zunächst verstehen, welche Daten für eine Analyseanwendung benötigt werden und in welchem geschäftlichen Kontext sie stehen. Sobald die relevanten Daten aus den Quellsystemen gesammelt wurden, gehören zu den wichtigsten Schritten der Datenaufbereitung folgende:

Datenprofilierung, um Probleme mit der Datenqualität und -konsistenz zu erkennen
Datenbereinigung, um diese Probleme zu beheben
Datentransformation und -anreicherung, um den erforderlichen Geschäftskontext für die Analysen zu schaffen

Bei diesen Schritten sollten Sie alles tun, was angemessen und möglich ist, insbesondere bei der Datenbereinigung. Denken Sie daran, dass Perfektion oft nicht erreichbar ist oder sich die Kosten dafür nicht lohnen – und dass sie der Feind des Fortschritts bei der Datenaufbereitung sein kann.