JRB - stock.adobe.com

So bereiten Sie Dark Data für maschinelles Lernen vor

Dark Data bietet zahlreiche Ansatzpunkte für maschinelles Lernen. Doch um ihr Potential voll zu entfalten, müssen diese Daten optimal verwaltet und strukturiert werden.

Wir alle füllen Online-Formulare für irgendetwas aus, ein Dialogfeld nach dem anderen in unzähligen Formularen. Wir haben uns so sehr daran gewöhnt, dass wir gar nicht mehr bemerken oder darauf achten, was mit diesen Daten geschieht, weil wir davon ausgehen, dass das Marketing sie nutzt, um mehr Werbung für die eigenen Produkte zu schalten. In den meisten Fällen stimmt das auch, aber das ist nicht die ganze Geschichte.

Ist Ihnen schon einmal aufgefallen, dass in diesen Formularen oft Daten gesammelt werden, die nichts miteinander zu tun haben, oder dass diese Formulare scheinbar endlos sind? Unternehmen haben nur eine einzige Chance, von einem Kunden etwas zu erfahren, also nutzen sie diese Chance. Sie stellen mehr Fragen als nötig, in der Hoffnung, dass sie diese Daten in Zukunft nutzen können. Diese Daten, genannt Dark Data, gibt es überall – Unternehmen werden mit ihnen überschwemmt, sind sich aber nicht sicher, was sie damit anfangen sollen oder welche Vorteile und Risiken damit verbunden sind.

Vorteile von Dark Data

Der eigentliche Vorteil von Dark Data ist, dass sie ein enormes Potential für die Zukunft enthalten können. Vor ein paar Jahren war das noch graue Theorie. Doch mit der zunehmenden Bedeutung und dem wachsenden Umfang des maschinellen Lernens ist es einfacher geworden, unstrukturierte Daten in etwas Brauchbares zu verwandeln.

Das liegt nicht nur am Anstieg der verfügbaren Rechenleistung – auch wenn diese natürlich hilft. Maschinelles Lernen filtert unstrukturierte Daten, verarbeitet sie und wandelt sie in ein strukturiertes Format um, das für IT-Betriebe von Nutzen ist. Dies kann geschehen, indem vorhandene Datenwerte auf bestimmte Begriffe hin abgesucht werden und die Daten in eine Struktur einzuordnen und durchsuchbare Berichte zu dieser zu erstellen.

Kein Unternehmen hat je den vollen Überblick, wenn es um Administration, Vertrieb und Marketing geht. Wenn neue Fragen und Trends auftauchen, können Betriebe auf bestehende Datenquellen zurückgreifen, um Antworten und Reaktionen mit Informationen zu unterfüttern.

Dieser Prozess kostet Geld und Mühen – aber er ist es wert, denn sonst sind die Daten, die Sie ebenfalls unter Aufwand von Kosten und Zeit erhoben und gespeichert haben, nicht zu gebrauchen. Achten Sie darauf, dass Sie die richtigen Fragen stellen, denn das Timing ist wichtig – Sie haben nicht die Zeit, um Daten laufend nach neuen Fragestellungen hin neu zu strukturieren.

Timing

Daten, die zu einem bestimmten Zweck erhoben werden, sind einfach nur Daten – nicht Dark Data. Letztere werden in einem Prozess erfasst, der eigentlich einen anderen Zweck erfüllt und dann für eingelagert – nur für den Fall, dass der richtige Moment kommt.

Bei der Bewertung Ihrer Dark Data ist ein wichtiger Faktor, wie lange Sie sie schon lagern. Informationen zum Wohnungsmarkt oder Trends im Gesundheitswesen sind nach einem Jahr vielleicht noch aktuell genug. Geht es aber um das Saisongeschäft im Einzelhandel, haben die Daten wenig bis gar keinen Wert mehr, weil sich der Markt oder die Bedürfnisse zu sehr geändert haben. Das Alter der Daten ist ein generelles Problem, bei Dark Data ist es jedoch noch kritischer, weil diese nicht mit einem klaren Ziel erhoben wurden. Das bedeutet nicht, dass sie wertlos sind, sondern dass Sie den Kontext so auswählen müssen, dass Sie keine fehlerhaften Schlüsse aus ihnen ziehen.

Dark Data kann eine Menge über einen Kundenstamm verraten, je nachdem, aus welcher Perspektive man sie betrachtet und hinsichtlich welcher Schlüsselbegriffe man sie auswertet. Immobilienunternehmen sehen vielleicht auf den ersten Blick wenig Wert darin, das Bildungsniveau ihrer Kunden zu kennen. Aber diese Informationen spiegeln Einkommensverhältnisse wider und das ist wiederum eine wertvolle Information.

Es braucht vielleicht ein oder zwei wichtige Anwendungsfälle, um zu zeigen, dass und wie Dark Data für Ihr Unternehmen von Wert sein kann.

Eine andere Möglichkeit, diese Daten zu nutzen, wäre abzuschätzen, wann Kunden in die Familiengründungsphase eintreten und sich deshalb räumlich verändern möchten – Akademiker tun dies tendenziell später als Menschen mit Ausbildungsberufen. Sie können relativ unzusammenhängende Daten auf verschiedene Weise betrachten, je nachdem, wie und wonach Sie suchen. Der Kontext ist von entscheidender Bedeutung, da der Datensatz nicht mit einem spezifischen Ziel erhoben wurde. Gehen Sie hier mit großer Vorsicht vor.

Speichern und Instandhalten der Daten

Ein zweiter Aspekt bei Dark Data ist, wie erwähnt, der Aufwand zum Speichern und Instandhalten. Speicherplatz ist heute kostengünstiger als je zuvor, aber deshalb ist er noch lange nicht umsonst.

Bis zu 90 Prozent der Daten eines Unternehmens gelten als veraltete oder unstrukturierte Dark Data. Das kann bedeuten, dass das Speicherbudget zu 90 Prozent für etwas verwendet wird, dessen Zweck unklar ist.

Außerdem müssen Sie Dark Data wie alle anderen Daten auch sichern und Backups erstellen. Auch dafür zahlen Sie – seien es monatliche Cloud-Gebühren, jährliche Lizenzen oder Personal. Diese Ausgaben können sogar höher sein als die für das Machine Learning zum Auswerten der Daten. Stellen Sie daher sicher, dass sich der Aufwand für Sie wirklich lohnt.

Es braucht vielleicht ein oder zwei wichtige Anwendungsfälle, um zu zeigen, dass und wie Dark Data für Ihr Unternehmen von Wert sein kann. Doch Sie haben ein Ass im Ärmel: Die meisten Verantwortlichen zögern sowieso, Daten wegzuwerfen, weil sie immer denken, dass sie diese doch benötigen könnten. Manchmal behalten sie dabei Recht.

Erfahren Sie mehr über IT-Berufe und Weiterbildung

ComputerWeekly.de
Close