Wenn aus Dark Data wertvolle Informationen werden

Unstrukturierte Daten sind in Unternehmen nicht nur ein lästiges und kostenträchtiges Problem. Sie können richtig gefährlich werden, weil in ihnen unkontrollierte Risiken lauern.

von

Gregor Bieler, Aparavi

Zuletzt aktualisiert: 20 Jan. 2023

Dark Data, das sind vor allem redundante, obsolete und triviale Daten (ROT). Also Daten, die nicht mehr benötigt werden. Das verursacht zwar unnötige Kosten für die Speicherung und belastet damit den ökologischen Fußabdruck eines Unternehmens, klingt ansonsten aber erst einmal harmlos.

Schaut man jedoch genauer hin, dann lauern in diesen ROT-Daten Gefahren, die sich zu einem veritablen Sicherheitsrisiko auswachsen können, weil niemand weiß, welche sicherheitskritischen Informationen dort gespeichert sind. Gleichzeitig verstellen sie den Blick auf die wirklich wichtigen, in der einen oder anderen Form monetarisierbaren Informationen, die in dem Wust überflüssiger Daten oft nur schwer zu finden sind.

Wer einmal versucht hat, die dringend benötigte Kundenanalyse des Behördensektors aus dem 3. Quartal des Vorjahres aus dem Datensumpf herauszufischen, kennt den Effekt. Dark Data sind also auch all die Daten, die zwar potenziell wertvoll sind, aber bislang weder klassifiziert noch verstanden wurden.

Noch steht es 2:1 für Dark Data

Schätzungen gehen davon aus, dass maximal ein Drittel der in einem Unternehmen vorhandenen Daten tatsächlich aktiv genutzt werden. Mehr als zwei Drittel sind demnach Datenmüll, der täglich weiterwächst. Dabei handelt es sich in der Regel um eine Mischung aus alten E-Mails, PDFs sowie Text-, Kalkulations-, Präsentations- und Grafikdateien, die irgendwann einmal irgendwo abgelegt wurden.

Darunter können auch Dateien sein, die zwar gespeichert wurden, aber nicht (mehr) geöffnet werden können, weil die entsprechenden Applikationen dafür fehlen. Ein typisches Beispiel sind Grafiken, die in einem professionellen Programm mit einem eigenen Dateiformat erstellt wurden, mit gängigen Viewern aber nicht lesbar sind.

Brisant sind aber auch Daten und Dateien, deren Zugriffsrechte nicht richtig geregelt wurden. Wenn etwa geschäftskritische Daten oder gar Geschäftsgeheimnisse wie vertrauliche Analysen, Planungsunterlagen oder Geschäftsberichte auch für nicht autorisierte Benutzergruppen, frustrierte Mitarbeiter oder temporäre Aushilfskräfte zugänglich sind, klafft eine riesige Lücke im internen IT-Sicherheitssystem. Wer nicht weiß, wo und wie sein geistiges Eigentum gespeichert ist, sitzt auf einem Pulverfass.

„Bei der Identifikation von Dark Data handelt es sich nicht um eine kurzfristige einmalige Maßnahme, sondern um einen laufenden Prozess.“

Gregor Bieler, Aparavi

Mit diesem unkontrollierten Datenmüll sind Auditierungen und Zertifizierungen ebenso wenig zu erfüllen wie die Einhaltung von Security- und Compliance-Vorgaben. Beides aber wird in vielen Geschäftsbeziehungen vorausgesetzt. So sind etwa ISO-Zertifizierungen im Banken- und Versicherungssektor ein Muss. Dazu kommt die Erfüllung von verbindlichen Security- und Compliance-Vorgaben.

Für den Umgang mit personenbezogenen Daten etwa sieht die DSGVO (Datenschutz-Grundverordnung) besondere Schutzmaßnahmen vor. Auch hier lauern Gefahren, wenn in einem unstrukturierten Daten-Pool sicherheitskritische Angaben wie Passwörter, Geburts-, Konto- oder Log-in-Daten lauern.

…aber der Konter läuft

Wie also umgehen mit Dark Data? Der erste logisch Schritt ist die Bestandsaufnahme des Status Quo, um Transparenz bezüglich der Daten zu schaffen, von A wie Alter bis Z wie Zugriffsrechte. Eine erste einfache, aber sehr effektive Maßnahme ist die Identifikation von Doubletten.

Mit der Bereinigung von redundanten Dateien und Informationen lässt sich der Datenbestand in der Regel schnell und sauber drastisch reduzieren, was die weitere Bearbeitung der verbleibenden Daten enorm erleichtert. Darauf folgt dann die Datenanalyse, also der Blick in die Daten und Metadaten selbst. Hier wird dann die Klassifizierung in verbliebene ROT-Daten, besonders schutzwürdige personenbezogene Daten und wertvolle, potenziell gewinnbringende Informationen vorgenommen. Dadurch kann der Datenpool konsolidiert und weiter bereinigt werden.

Dieses strukturierte, sukzessive Vorgehen verschafft die Transparenz und den Überblick über die Daten, die tatsächlich für ein Unternehmen relevant sind. Bei der Identifikation von Dark Data handelt es sich also nicht um eine kurzfristige einmalige Maßnahme, sondern um einen laufenden Prozess.

Denn unstrukturierte Daten werden täglich neu gespeichert und müssen immer wieder herausgefiltert, klassifiziert und gegebenenfalls gelöscht werden. Das erhöht die Sicherheit und Compliance-Konformität, senkt die Kosten und macht sich zudem positiv bei der Nachhaltigkeitsbilanz bemerkbar. Denn Terabyte an Daten, die nicht mehr gespeichert werden, fressen weder Speicherplatz noch Strom noch wertvolle Administratorenarbeitszeit.

Über den Autor:
Gregor Bieler ist Co-CEO bei Aparavi.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Wenn aus Dark Data wertvolle Informationen werden

Unstrukturierte Daten sind in Unternehmen nicht nur ein lästiges und kostenträchtiges Problem. Sie können richtig gefährlich werden, weil in ihnen unkontrollierte Risiken lauern.

Noch steht es 2:1 für Dark Data

…aber der Konter läuft

Erfahren Sie mehr über Datensicherheit

KI und Cybersicherheit: Herausforderungen und Chancen

Dark Fiber

Unstrukturierte Daten richtig managen und Effizienzen nutzen

Bit Rot