Voraussetzung für erfolgreiche Big-Data-Analyse: Korrekte Daten und Transparenz

Big-Data-Analyse ist nur erfolgreich, wenn die Basisdaten in hoher Qualität vorliegen. Diese sollten vollständig, unverfälscht und transparent sein.

Die IT-Welt ist ohne Buzzwords nicht denkbar. Aktuell bestimmen Datenmanagement und das Hype-Thema Big Data immer noch die Schlagzeilen. Sätze wie „Datenanalyse in Echtzeit“ oder „Predictive Analytics mit In-Memory-Technologie wird ihr Unternehmen verändern“ sind in IT-Medien heute täglich zu lesen. Doch in der Realität bleiben die Produkte oder Dienstleistungen dieser Big-Data-Schlagwörter hinter den Erwartungen zurück. Denn das Herausfiltern wichtiger Erkenntnisse aus großen Datenmengen ist ein schwieriger, arbeitsintensiver und oft langwieriger Prozess.

Das heißt noch lange nicht, dass diese Marketing-Phrasen bedeutungslos sind; es kann aber schwierig sein, den Unterschied zwischen sinnvollen technischen Begriffen und Schlagwörtern herauszufinden – erstere stehen für Expertise, letztere eher für schlampiges Denken. Daher müssen die Verantwortlichen in Unternehmen im Vorfeld von Big-Data-Projekten die Begriffe und die zugrundeliegenden Konzepte und Technologien genau definieren. Nur so lassen sich falsche Schlussfolgerungen und damit am Ende auch das mögliche Scheitern von Projekten vermeiden.

Predictive Analytics: Gefahr falscher Schlussfolgerungen

Nehmen wir das Beispiel Predictive Analytics. Dahinter stecken eigentlich „nur“ Algorithmen, die potenzielle Zusammenhänge und Trends in Daten finden. Diese Algorithmen sind aber nicht wirklich vorausschauend und die Zukunft vorhersagend. Im besten Fall erkennen sie, was künftig passieren wird, wenn die Zukunft wie die Vergangenheit abläuft. Im schlimmsten Fall sind diese Algorithmen aber anfällig für „False Positives“ beziehungsweise Fehler 1. Art. Das heißt: Sie stellen eine Korrelation her, die tatsächlich nicht existiert. Der Fehler 1. Art oder Alpha-Fehler ist ein Fachbegriff der Statistik, der sich auf den sogenannten Hypothesentest bezieht. Beim Test einer Hypothese liegt ein Fehler 1. Art vor, wenn die Nullhypothese zurückgewiesen wird, obwohl sie in Wirklichkeit wahr ist. Dies beruht auf falsch positiven Ergebnissen, daher False Positives.

Falsche Schlussfolgerungen entstehen meist aufgrund der statistischen Verteilung der Daten oder durch einen Fehler in der Analysemethode. Tools, die den Einsatz von Predictive-Algorithmen vereinfachen, können das False-Positive-Problem verschärfen. Denn je mehr Analysen gemacht werden, desto wahrscheinlicher werden Zufallsfehler, die zu einer Korrelation führen. Ungeschulte Anwender haben hier häufig ein Wahrnehmungsproblem. Sie neigen dazu, Analysen zu „vergessen“, die keine signifikanten Zusammenhänge zwischen Daten erkennen, und bevorzugen stattdessen Analysen, die ein aus ihrer Sicht relevantes Ergebnis erbringen. Grundsätzlich gilt: Ab einer bestimmten Anzahl von Analysevorgängen ergeben sich zwangsläufig gewisse Korrelationen zwischen Daten. Gute Analytics-Software sollte dieses Phänomen erkennen.

Auf vollständige Datenbasis achten

Leider passieren Fehler wie diese selten zufällig. Denn am Anfang einer Big-Data-Analyse steht immer die Sammlung der Daten und deren Konsolidierung. Hier ist es besonders wichtig, auf die Qualität der Daten zu achten, da sich im Laufe der Daten-Aggregation sehr schnell Fehler einschleichen können, die zu falschen Rückschlüssen führen. Ein Beispiel wäre die Analyse von Umsatz- oder Gewinnzahlen. Hier kann es passieren, dass aufgrund eines Fehlers bei einer neu eingeführten Software die Umsatzzahlen mehrerer Produkte aus einer bestimmten Region nicht in die Datenbank einfließen.

Die Predictive-Analytics-Software zeigt dann, dass die Gewinne in dieser Region sanken und wahrscheinlich auch künftig zurückgehen werden. Das eigentliche Problem der Analyse: Die Verkaufszahlen sind nicht vollständig erfasst, die Geschäftskosten für diese Produkte werden aber eingerechnet. Die Ergebnisse der Analytics-Software würden fälschlicherweise zu der Entscheidung führen, die Kosten zu senken, um die Umsatzeinbußen zu kompensieren. Dass hier grundsätzlich die Ausgangsdaten nicht vollständig vorliegen oder die Installation der Software fehlerhaft war, wird nicht ersichtlich. Eine derartige Analyse-Funktionalität bieten die Softwarehersteller bislang noch nicht an, da sie schwer zu implementieren und kaum mit den Schlagwörtern zu vereinbaren ist, mit denen die Hersteller den Verkauf ihrer Produkte ankurbeln.

Voraussetzung für erfolgreiche Big-Data-Analyse: Korrekte Daten und Transparenz

Die Analyse großer Datenmengen birgt großes Potenzial für Unternehmen, wenn die entsprechende Software und Methodik auf folgenden drei Grundsätzen basiert: Genauigkeit, Integrität und Transparenz.

  • Genauigkeit: Die Software sollte die Daten korrekt erfassen und bei der Auswertung und Visualisierung auf mögliche Fehler und Ungenauigkeiten hinweisen. Die Analytics-Software aus dem oben geschilderten Beispiel würde den Korrektheits-Test nicht bestehen, da sie suggeriert, die Umsatzdaten seien genau erfasst worden, obwohl dies nicht der Wahrheit entspricht.
  • Integrität: Die Daten müssen vollständig sein und die Realität widerspiegeln. Das bedeutet hohen Aufwand um zu verhindern, dass die Methoden zur Sammlung, Aufbereitung und Messung der Daten nicht selbst einen Trend erzeugen. Die fehlenden Verkaufszahlen aus dem obigen Beispiel zeigen einen Mangel an Integrität. 
  • Transparenz: Transparenz ist die Voraussetzung für Genauigkeit und Integrität. Im Idealfall sollte jeder Nutzer die Qualität von beliebigen Daten schnell beurteilen können. Dies funktioniert nur, wenn er jeden Prozessschritt einfach nachvollziehen kann, vom Sammeln, Aufbereiten, Messen bis hin zum Visualisieren der Daten. Nehmen wir erneut das obige Beispiel mit den unvollständigen Verkaufszahlen. Hier sollten Informationen über die Datenquelle verfügbar sein. Auf deren Basis könnte ein Anwender den Zusammenhang zwischen dem Abwärtstrend beim Umsatz und der Einführung der neuen Software erkennen. Diese Art von Transparenz erfordert aussagekräftige Informationen über die Herkunft der Daten bei der Analyse.

Fazit: Die häufigsten Probleme beim Datenmanagement sind nicht die Datenmenge, die Geschwindigkeit der Datenanalyse oder die automatische Vorhersage der Zukunft. Die größte Herausforderung besteht in der Qualität der Basisdaten (Genauigkeit, Integrität, Transparenz) für die Analyse. Sie bildet die Voraussetzung für wertvolle Erkenntnisse. Nur dann sind Schlagworte wie „Big Data“, „Echtzeit“, „In-Memory“ und „Predictive Analytics“ aussagekräftig.

Folgen Sie SearchEnterpriseSoftware auf Twitter @sentsoftwarede.

Erfahren Sie mehr über Big Data

ComputerWeekly.de
Close