
kentoh - stock.adobe.com
Unstrukturierte Daten richtig managen und Effizienzen nutzen
Unstrukturierte Daten können Storage blockieren. Diese kostspielige und leistungshemmende Situation lässt sich durch eine effiziente Verwaltung unstrukturierter Daten vermeiden.
Unstrukturierte Daten wachsen schneller als jede andere Datenform. Während deren Verwaltung komplex sein kann, führt der Verzicht auf ein sinnvolles Management zu erheblichen Kosten.
Die Quellen des Wachstums unstrukturierter Daten
Das Wachstum unstrukturierter Daten wird nicht mehr nur durch klassische Formate wie Dokumente, Tabellen, Präsentationen, Fotos, Videos und Audiodateien angetrieben. Heute sind es vor allem Datenquellen wie Protokolle, IoT-Geräte, soziale Medien, CCTV, Sensoren, Metadaten und sogar Suchmaschinenanfragen, die das Datenvolumen steigen lassen. Auch neu erstellte Inhalte aus Modellen generativer KI erzeugen zahlreiche unstrukturierte Daten.
Die Herausforderung: Kostenbewusste Verwaltung unstrukturierter Daten
Unstrukturierte Daten lassen sich nur schwer klassifizieren, indizieren oder in traditionellen Datenbanken speichern. Meist entstehen sie auch nicht in Datenbanken, die für deren Analyse ausgelegt sind, wie JSON-, Key-Value- oder XML-Datenbanken. Deshalb müssen diese Daten extrahiert, transformiert und in geeignete Datenbanken geladen werden – ein aufwendiger, fehleranfälliger Prozess, der Skripte oder externe Dienstleister erfordert.
Das Verschieben von Daten kann zudem zu mehrfachen Kopien führen, was zusätzlichen Speicherplatz, Hardware-Ressourcen, Lizenzen, Energie, Kühlung und Verwaltung erfordert – ein finanziell wenig nachhaltiger Ansatz. Dennoch gibt es Möglichkeiten, die Verwaltungskosten unstrukturierter Daten effizient zu gestalten.

Die Entscheidung: Daten verwalten oder nicht
Viele IT-Abteilungen entscheiden sich dafür, unstrukturierte Daten nicht aktiv zu verwalten. Stattdessen erweitern sie einfach die Speicherkapazitäten, ohne Daten zu klassifizieren, zu analysieren oder zu archivieren. Zwar kommen Technologien wie Deduplizierung zum Einsatz, doch das Datenvolumen bleibt groß und schwer handhabbar. Zudem ist dieser Ansatz langfristig finanziell nicht tragbar.
Unstrukturierte Daten beanspruchen oft primären Speicher, der teuer ist – meist basierend auf Flash-SSDs. Softwarelizenzen, etwa für Backup- und Replikationslösungen, orientieren sich häufig an der genutzten Kapazität. Wächst der Datenbestand, steigen auch die Kosten, selbst wenn die Daten selten genutzt werden.
Üblicherweise werden Speichersysteme alle drei bis fünf Jahre erneuert. Beim Upgrade muss der neue Speicher Platz für alle bestehenden und zukünftigen Daten bieten – was Infrastrukturkosten erhöht. Zudem ist eine aufwendige Datenmigration notwendig.
Mit wachsendem Datenbestand steigen auch die Backup-Kosten. Zusätzlich wird bei Systemausfällen das Wiederherstellen kalter Daten zeitaufwendig und teuer. Zudem erschweren gesetzliche Vorgaben wie die DSGVO oder der California Consumer Privacy Act die Speicherung unstrukturierter Daten, insbesondere wenn personenbezogene Daten (PII) enthalten sind. Die Identifikation und Verwaltung dieser Daten wird mit zunehmendem Datenvolumen komplexer.
Auch rechtliche Risiken steigen: Bei rechtlichen Auseinandersetzungen müssen Unternehmen ihre Daten zur Verfügung stellen. Mit effizienten Datenlebenszyklus-Management-Richtlinien lassen sich Daten, die nicht mehr benötigt werden, rechtzeitig löschen. Das minimiert Kosten und rechtliche Risiken.

Tool zur Verwaltung unstrukturierter Daten
Ein effektives Datenmanagement beginnt mit der Erfassung, Analyse und Verwaltung von Metadaten – insbesondere bei PII. Zu den bekannten Lösungen zählen Aparavi, open source iRODs, Komprise, Spectra Logic StorCycle, Starfish Storage und StrongLink.
Durch den Einsatz dieser Tools können Daten intelligent zwischen primären und kostengünstigeren Speicherlösungen wie Cloud- oder Bandarchiven verschoben werden. Der Zugriff erfolgt weiterhin über Client-Software, symbolische Links oder globale Namensräume.
Diese Systeme nutzen unterschiedliche Methoden zur Datenerfassung und Klassifizierung. Einige mounten Speicher mit administrativen Rechten (iRODs, Komprise, Spectra Logic StorCycle, Starfish Storage, StrongLink), andere arbeiten innerhalb der Rechensysteme (Aparavi). Dadurch werden Kapazitäten auf primären und sekundären Speichern reduziert.
Auswahl eines Datenmanagementsystems
Bei der Auswahl eines Systems sollten folgende Fragen geklärt werden:
- Wie viele Daten sollen initial und fortlaufend migriert werden?
- Werden sowohl Metadaten- als auch Datenindizierung benötigt?
- Welche aktuellen Prozesse zur Datenindizierung existieren und wo liegen deren Schwächen?
- Welche Anforderungen bestehen hinsichtlich Skalierbarkeit und Leistung? Reicht eine Lösung für Petabyte oder wird eine Exabyte-fähige Lösung benötigt?
- Soll nur indiziert oder auch weniger genutzte Daten in kalte Speicherstufen verschoben werden?
- Wie automatisiert, einfach und intuitiv soll das System sein?
- Wie gestalten sich die Lizenzierungs- oder Abonnementmodelle der jeweiligen Systeme?
Ein gut durchdachtes Datenmanagement reduziert langfristig die Kosten und Risiken gegenüber dem Ansatz, unstrukturierte Daten unkontrolliert wachsen zu lassen.