kentoh - stock.adobe.com

Feature

Unstrukturierte Daten richtig managen und Effizienzen nutzen

Unstrukturierte Daten können Storage blockieren. Diese kostspielige und leistungshemmende Situation lässt sich durch eine effiziente Verwaltung unstrukturierter Daten vermeiden.

von

Brien Posey
Marc Staimer, Dragon Slayer Consulting

Zuletzt aktualisiert: 11 Apr. 2025

Unstrukturierte Daten wachsen schneller als jede andere Datenform. Während deren Verwaltung komplex sein kann, führt der Verzicht auf ein sinnvolles Management zu erheblichen Kosten.

Die Quellen des Wachstums unstrukturierter Daten

Das Wachstum unstrukturierter Daten wird nicht mehr nur durch klassische Formate wie Dokumente, Tabellen, Präsentationen, Fotos, Videos und Audiodateien angetrieben. Heute sind es vor allem Datenquellen wie Protokolle, IoT-Geräte, soziale Medien, CCTV, Sensoren, Metadaten und sogar Suchmaschinenanfragen, die das Datenvolumen steigen lassen. Auch neu erstellte Inhalte aus Modellen generativer KI erzeugen zahlreiche unstrukturierte Daten.

Die Herausforderung: Kostenbewusste Verwaltung unstrukturierter Daten

Unstrukturierte Daten lassen sich nur schwer klassifizieren, indizieren oder in traditionellen Datenbanken speichern. Meist entstehen sie auch nicht in Datenbanken, die für deren Analyse ausgelegt sind, wie JSON-, Key-Value- oder XML-Datenbanken. Deshalb müssen diese Daten extrahiert, transformiert und in geeignete Datenbanken geladen werden – ein aufwendiger, fehleranfälliger Prozess, der Skripte oder externe Dienstleister erfordert.

Das Verschieben von Daten kann zudem zu mehrfachen Kopien führen, was zusätzlichen Speicherplatz, Hardware-Ressourcen, Lizenzen, Energie, Kühlung und Verwaltung erfordert – ein finanziell wenig nachhaltiger Ansatz. Dennoch gibt es Möglichkeiten, die Verwaltungskosten unstrukturierter Daten effizient zu gestalten.

Abbildung 1: Die verschiedenen Arten unstrukturierter Daten im Kurzüberblick.

Die Entscheidung: Daten verwalten oder nicht

Viele IT-Abteilungen entscheiden sich dafür, unstrukturierte Daten nicht aktiv zu verwalten. Stattdessen erweitern sie einfach die Speicherkapazitäten, ohne Daten zu klassifizieren, zu analysieren oder zu archivieren. Zwar kommen Technologien wie Deduplizierung zum Einsatz, doch das Datenvolumen bleibt groß und schwer handhabbar. Zudem ist dieser Ansatz langfristig finanziell nicht tragbar.

Unstrukturierte Daten beanspruchen oft primären Speicher, der teuer ist – meist basierend auf Flash-SSDs. Softwarelizenzen, etwa für Backup- und Replikationslösungen, orientieren sich häufig an der genutzten Kapazität. Wächst der Datenbestand, steigen auch die Kosten, selbst wenn die Daten selten genutzt werden.

Üblicherweise werden Speichersysteme alle drei bis fünf Jahre erneuert. Beim Upgrade muss der neue Speicher Platz für alle bestehenden und zukünftigen Daten bieten – was Infrastrukturkosten erhöht. Zudem ist eine aufwendige Datenmigration notwendig.

Mit wachsendem Datenbestand steigen auch die Backup-Kosten. Zusätzlich wird bei Systemausfällen das Wiederherstellen kalter Daten zeitaufwendig und teuer. Zudem erschweren gesetzliche Vorgaben wie die DSGVO oder der California Consumer Privacy Act die Speicherung unstrukturierter Daten, insbesondere wenn personenbezogene Daten (PII) enthalten sind. Die Identifikation und Verwaltung dieser Daten wird mit zunehmendem Datenvolumen komplexer.

Auch rechtliche Risiken steigen: Bei rechtlichen Auseinandersetzungen müssen Unternehmen ihre Daten zur Verfügung stellen. Mit effizienten Datenlebenszyklus-Management-Richtlinien lassen sich Daten, die nicht mehr benötigt werden, rechtzeitig löschen. Das minimiert Kosten und rechtliche Risiken.

Abbildung 2: Fehlende oder nachlässige Verwaltung unstrukturierter Daten führt zu zusätzli-chen ungewollten Kosten.

Tool zur Verwaltung unstrukturierter Daten

Ein effektives Datenmanagement beginnt mit der Erfassung, Analyse und Verwaltung von Metadaten – insbesondere bei PII. Zu den bekannten Lösungen zählen Aparavi, open source iRODs, Komprise, Spectra Logic StorCycle, Starfish Storage und StrongLink.

Durch den Einsatz dieser Tools können Daten intelligent zwischen primären und kostengünstigeren Speicherlösungen wie Cloud- oder Bandarchiven verschoben werden. Der Zugriff erfolgt weiterhin über Client-Software, symbolische Links oder globale Namensräume.

Diese Systeme nutzen unterschiedliche Methoden zur Datenerfassung und Klassifizierung. Einige mounten Speicher mit administrativen Rechten (iRODs, Komprise, Spectra Logic StorCycle, Starfish Storage, StrongLink), andere arbeiten innerhalb der Rechensysteme (Aparavi). Dadurch werden Kapazitäten auf primären und sekundären Speichern reduziert.

Auswahl eines Datenmanagementsystems

Bei der Auswahl eines Systems sollten folgende Fragen geklärt werden:

Wie viele Daten sollen initial und fortlaufend migriert werden?
Werden sowohl Metadaten- als auch Datenindizierung benötigt?
Welche aktuellen Prozesse zur Datenindizierung existieren und wo liegen deren Schwächen?
Welche Anforderungen bestehen hinsichtlich Skalierbarkeit und Leistung? Reicht eine Lösung für Petabyte oder wird eine Exabyte-fähige Lösung benötigt?
Soll nur indiziert oder auch weniger genutzte Daten in kalte Speicherstufen verschoben werden?
Wie automatisiert, einfach und intuitiv soll das System sein?
Wie gestalten sich die Lizenzierungs- oder Abonnementmodelle der jeweiligen Systeme?

Ein gut durchdachtes Datenmanagement reduziert langfristig die Kosten und Risiken gegenüber dem Ansatz, unstrukturierte Daten unkontrolliert wachsen zu lassen.

Unstrukturierte Daten richtig managen und Effizienzen nutzen

Unstrukturierte Daten können Storage blockieren. Diese kostspielige und leistungshemmende Situation lässt sich durch eine effiziente Verwaltung unstrukturierter Daten vermeiden.

Die Quellen des Wachstums unstrukturierter Daten

Die Herausforderung: Kostenbewusste Verwaltung unstrukturierter Daten

Die Entscheidung: Daten verwalten oder nicht

Tool zur Verwaltung unstrukturierter Daten

Auswahl eines Datenmanagementsystems

Erfahren Sie mehr über Storage Performance

Unstrukturierte Daten

Analytische Datenbank (Analysedatenbank)

iRODS: Open-Source-Datenmanagement für akademische Institute

Backup unstrukturierter Daten: Darauf muss geachtet werden