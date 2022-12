Das Aufkommen von Self-Service-BI-Tools ermöglichte es Mitarbeitern außerhalb der IT-Abteilung, Daten zu analysieren und selbständig Datenvisualisierungen und Dashboards zu erstellen. Das war großartig, wenn die Daten für die Analyse bereit waren. Doch es stellte sich heraus, dass der größte Teil des Aufwands bei der Erstellung von Business-Intelligence-Anwendungen in der Datenaufbereitung lag. Das ist auch heute noch so – und zahlreiche Herausforderungen erschweren den Datenaufbereitungsprozess.

Diese Herausforderungen werden zunehmend von Geschäftsanalysten, Datenwissenschaftlern, Dateningenieuren und auch Nicht-IT-Anwendern bewältigt. Das liegt daran, dass Softwareanbieter Self-Service-Tools für die Datenaufbereitung entwickelt haben. Diese Tools ermöglichen es BI-Benutzern und Data-Science-Teams, die erforderlichen Datenaufbereitungsaufgaben für Analyse- und Datenvisualisierungsprojekte durchzuführen. Sie beseitigen jedoch nicht die Komplexität der Datenaufbereitung.

Um erfolgreich zu sein, ist es wichtig, die Herausforderungen zu verstehen, die die Datenaufbereitung mit sich bringt, und zu wissen, wie man sie bewältigen kann. Viele Herausforderungen bei der Datenaufbereitung können unter dem Begriff Datenqualität zusammengefasst werden. Allerdings es ist sinnvoll, sie in spezifischere Fragen zu unterteilen, um die Probleme zu identifizieren, zu beheben und zu managen. In diesem Sinne finden Sie hier sieben Probleme, auf die Sie vorbereitet sein sollten.

Die Datenaufbereitung muss in einem angemessenen Rahmen erfolgen. Das Ziel besteht darin, die Daten für den beabsichtigten Zweck nutzbar zu machen, ohne in eine Analyseparalyse zu verfallen oder endlos nach perfekten Daten zu streben. Aber man darf sie nicht vernachlässigen oder dem Zufall überlassen.

Daher müssen die Daten so aufbereitet werden, dass sie das für die geplanten Analysezwecke erforderliche Maß an Sauberkeit, Konsistenz, Vollständigkeit, Aktualität und Kontext aufweisen. Die richtige Datenaufbereitung ist daher von entscheidender Bedeutung. Ohne sie ist es unwahrscheinlich, dass BI- und Analyseinitiativen die gewünschten Ergebnisse liefern.

In modernen Unternehmen steht eine Flut von Daten zur Verfügung, die analysiert und verarbeitet werden können, um die Geschäftsabläufe zu verbessern. Die Daten, die in Analyseanwendungen verwendet werden, stammen jedoch häufig aus verschiedenen Quellen, sowohl internen als auch externen. Höchstwahrscheinlich sind sie unterschiedlich formatiert und enthalten Fehler, Tippfehler und andere Probleme mit der Datenqualität . Einige dieser Daten können für die anstehende Arbeit irrelevant sein.

1. Unzureichendes oder nicht vorhandenes Data Profiling

Datenanalysten und Geschäftsanwender sollten bei der Durchführung von Analysen niemals vom Zustand der Daten überrascht werden – oder schlimmer noch, ihre Entscheidungen sollten durch fehlerhafte Daten beeinflusst werden, von denen sie nichts wussten. Die Erstellung von Datenprofilen (Data Profiling), einer der wichtigsten Schritte im Datenaufbereitungsprozess, sollte dies verhindern. Es gibt jedoch verschiedene Gründe, warum dies nicht der Fall ist, darunter folgende Szenarien:

Die Personen, die die Daten sammeln und aufbereiten, gehen davon aus, dass die Daten gültig sind, weil sie bereits in Berichten oder Tabellenkalkulationen verwendet wurden. Infolgedessen erstellen sie kein vollständiges Profil der Daten. Sie wissen jedoch nicht, dass die Daten zum Beispiel durch SQL -Abfragen, Ansichten, benutzerdefinierten Code oder Makros manipuliert werden, was die zugrunde liegenden Probleme im Datensatz verschleiert.

Jemand, der eine große Datenmenge sammelt, erstellt nur ein Profil eines Stichproben-Datensatzes, weil es zu zeitaufwändig wäre, einen vollständigen Datensatz zu erstellen. Datenanomalien werden jedoch in den Beispieldaten möglicherweise nicht erkannt.

Benutzerdefinierte SQL-Abfragen oder Tabellenkalkulationsfunktionen, die zur Erstellung von Datenprofilen verwendet werden, sind nicht umfassend genug, um alle Anomalien oder andere Probleme in den Daten zu finden.

Wie lässt sich diese Herausforderung bewältigen? Eine solides Data Profiling muss der Ausgangspunkt für den Datenaufbereitungsprozess sein. Datenaufbereitungs-Tools können dabei helfen: Sie enthalten umfassende Funktionen zur Erstellung von Datenprofilen, um die Vollständigkeit, Sauberkeit und Konsistenz von Datensätzen in den Quellsystemen und anschließend in den Zielsystemen im Rahmen der Datenkuration zu prüfen. Wenn sie gut gemacht ist, liefert die Erstellung von Datenprofilen die Informationen, die erforderlich sind, um viele der in den folgenden Abschnitten aufgeführten Datenprobleme zu erkennen und zu lösen.