Management unstrukturierter Daten optimiert Speicherleistung

Unverwaltete, unstrukturierte Daten können Storage negativ beeinflussen. Werden unstrukturierte Daten effizient verwaltet, lässt sich dieses Problem beheben und Speicher optimieren.

Unstrukturierte Daten sind die am schnellsten wachsenden Daten überhaupt. Laut IDC wachsen sie mit einer durchschnittlichen jährlichen Wachstumsrate von 61 Prozent und werden bis 2025 80 Prozent der weltweiten Daten ausmachen. Für viele große IT-Organisationen wurde diese Marke bereits vor einiger Zeit überschritten.

Das Wachstum unstrukturierter Daten wird nicht mehr von den üblichen Verdächtigen angetrieben – Dokumente, Tabellen, Präsentationen, Fotos, Videos und Audio. Die treibende Kraft hinter dem Wachstum sind heute Quellen wie Logs, IoT-Geräte, soziale Medien, CCTV, Sensoren, Metadaten und sogar Suchmaschinenanfragen.

Eine eigene Umfrage von Dragon Slayer Consulting im Jahr 2020 ergab, dass es sich bei den meisten unstrukturierten Daten im Unternehmen um „Cool Data“ (mehr als 30 Tage alt und seltener Zugriff) oder „Cold Data“ (mehr als 90 Tage alt und seltener Zugriff) handelt. Und dennoch liegen sie auf teurem Primärspeicher und verschlingen ständig Budget.

Die Herausforderung bei der Verwaltung unstrukturierter Daten ist, wie man sie kosteneffizient verwaltet. Unstrukturierte Daten lassen sich nicht einfach klassifizieren oder indizieren und können auch nicht einfach in herkömmlichen Datenbanken gespeichert werden.

Außerdem stammen sie in der Regel nicht aus Datenbanken, die für ihre Analyse geeignet sind, beispielsweise JSON-, Key-Value- und XML-Datenbanken. Das bedeutet, dass die Daten extrahiert, transformiert und in eine nützliche Datenbank geladen werden müssen.

Dies ist ein arbeitsintensiver, zeitaufwändiger und fehleranfälliger Prozess, der Skripte oder einen externen Dienstleister erfordert. Das Verschieben von Daten kann auch mehrere Kopien davon erzeugen, was mehr Speicherplatz, Rack-Platz, Switch-Ports, Softwarelizenzen, Strom, Kühlung, Kabel, Transceiver, zugewiesener Overhead und Administratoren bedeutet. Das macht finanziell keinen Sinn.

Abbildung 1: Unstrukturierte Daten können in unterschiedlichen Formaten vorliegen.
Abbildung 1: Unstrukturierte Daten können in unterschiedlichen Formaten vorliegen.

Verwaltung unstrukturierter Daten – oder nicht

Die gängige Herangehensweise an die Verwaltung unstrukturierter Daten besteht darin, sie einfach gar nicht zu verwalten. Viele IT-Abteilungen entscheiden sich dafür, die Kapazität ihrer primären Speichersysteme zu erhöhen, anstatt unstrukturierte Daten zu klassifizieren, zu verwalten, zu analysieren oder gar zu archivieren.

Sie gehen davon aus, dass die Daten da sind, falls sie jemals benötigt werden, auch wenn sie dann vielleicht schwer zu finden sind. Das Problem bei dieser Methode ist, dass sie aus mehreren Gründen finanziell nicht tragbar ist.

Der erste Grund ist, dass Daten Kapazität verbrauchen – oft die Kapazität des Primärspeichers. Und sobald diese Kapazität verbraucht ist, ist sie nicht mehr für andere Daten verfügbar. Primärspeicher ist der teuerste Speicher, der normalerweise aus einer Art Flash-SSD-Medium besteht. Die Software des Speichersystems und viele andere Arten von Software, wie Backups und Replikation, werden auf Basis der Kapazität lizenziert oder abonniert, was die Kosten für die unstrukturierten Daten erhöht, auch wenn nicht darauf zugegriffen wird.

Alle Speichersysteme müssen alle drei bis fünf Jahre aktualisiert oder erneuert werden. Wenn ein System aufgerüstet wird, muss das neue System Kapazitäten für alle vorhandenen unstrukturierten Daten sowie für alle Daten, die während der Lebensdauer des neuen Systems gespeichert werden, enthalten, was weitere Infrastruktur erfordert und Kosten verursacht.

Darüber hinaus müssen die Daten vom alten zum neuen Speichersystem migriert werden. Das erfordert Zeit, Aufwand und Software oder Skripting. Und es ist nicht nur der Primärspeicher, der verbraucht wird. Es wird auch Sekundärspeicher benötigt, da all diese gespeicherten unstrukturierten Daten als Backup gesichert werden müssen.

Neben den Kosten für die Sicherung unstrukturierter Daten kann die Wiederherstellung von Daten nach einem Ausfall ein größerer Kostenfaktor sein. Die Zeit, die für die Wiederherstellung von kalten Daten benötigt wird, kann die Wiederherstellung der Systeme verzögern, was zu noch mehr Kosten führt.

Ein weiterer Grund, warum die Aufbewahrung unstrukturierter Daten auf dem Primärspeicher ein Problem darstellt, sind globale Datenschutzgesetze und -vorschriften wie der California Consumer Privacy Act, die DSGVO der Europäischen Union, das japanische Gesetz zum Schutz persönlicher Daten und das thailändische Gesetz zum Schutz persönlicher Daten.

Die Einhaltung dieser Gesetze ist nicht optional, und es drohen erhebliche finanzielle Konsequenzen, wenn sie nicht eingehalten werden. Das bedeutet, dass IT-Organisationen wissen müssen, ob sich in den unstrukturierten Daten, die sie aufbewahren, personenbezogene Daten (PII) befinden und um welche Daten es sich dabei handelt.

Abbildung 2: Werden unstrukturierte Daten nicht gut verwaltet, kann dies zusätzliche Kosten erzeugen.
Abbildung 2: Werden unstrukturierte Daten nicht gut verwaltet, kann dies zusätzliche Kosten erzeugen.

Tools zur Verwaltung unstrukturierter Daten

Der Schlüssel zur Verwaltung unstrukturierter Daten, um die Leistung zu optimieren und die Kosten zu senken, liegt in der Erfassung, dem Sammeln, dem Parsen und dem Analysieren der Metadaten. In einigen Fällen, wie bei PII, bedeutet dies, dass der Inhalt selbst analysiert werden muss. Mehrere Unternehmen bieten Produkte und Dienstleistungen an, die auf die Verwaltung unstrukturierter Daten und deren Kosten ausgerichtet sind. Zu diesen Produkten gehören Aparavi, InfiniteIO, Open Source iRODs, Komprise, Spectra Logic StorCycle, Starfish Storage und StrongBox Data Solutions StrongLink.

Wenn das Management unstrukturierter Daten richtig gemacht wird, bringt dies positive Veränderungen mit sich. Daten werden vom teuren Primärspeicher auf kostengünstigere Sekundär-, Cloud- oder Bandspeicher verschoben, archiviert oder gelöscht. Die Datenmanagement-Software bestimmt, wohin sie verschoben werden sollen, basierend auf den Eigenschaften und Leistungsanforderungen der unstrukturierten Daten. Der Zugriff erfolgt entweder über Clientsoftware, symbolische Links, einen globalen Namensraum oder Kombinationen davon.

Diese intelligenten und autonomen Datenverwaltungssysteme haben verschiedene Möglichkeiten, auf unstrukturierte Daten zuzugreifen und sie zu klassifizieren. Sie mounten entweder den Datei- oder Objektspeicher mit administrativen Rechten (iRODs, Komprise, Spectra Logic, Starfish, StrongBox), sitzen im Datenpfad und sehen aus wie ein Switch (InfiniteIO), oder sie laufen in den Rechensystemen (Aparavi) und erfassen die Metadaten, klassifizieren den Inhalt, kopieren, verschieben, archivieren und löschen die Daten. Dadurch wird der Kapazitätsverbrauch im Primärspeicher und die Sicherung oder Replikation der Daten im Sekundärspeicher reduziert.

Ein System zur Verwaltung unstrukturierter Daten auswählen

Nachdem die Daten aus dem teuren Primärspeicher in einen kostengünstigeren Speicher verschoben wurden, kann auf sie oft einfach zugegriffen werden, ohne dass die Daten im ursprünglichen Speicher wieder erscheinen. Das ist enorm wichtig. Es klassifiziert die Daten, ermöglicht richtlinienbasiertes Verschieben und Speichern und macht Speichersysteme zu Standardgeräten.

Die Auswahl des besten intelligenten oder autonomen Systems zur Verwaltung unstrukturierter Daten für eine bestimmte Situation erfordert Wissen und Recherche. Sie sollten die folgenden fünf Fragen zu Ihren Anforderungen und den Produkten, die Sie in Betracht ziehen, beantworten:

  • Wie viele Daten werden im Vorfeld und im Laufe der Zeit verschoben oder migriert?
  • Benötigen Sie sowohl Metadaten als auch Datenindizierung?
  • Welches Maß an Skalierbarkeit und Leistung ist erforderlich? Benötigen Sie ein System, das in den Exabyte-Bereich skaliert, oder reicht eines, das in den niedrigen Petabyte-Bereich geht?
  • Wie automatisiert, einfach und intuitiv soll das Verwaltungssystem sein?
  • Wie wird das jeweilige System lizenziert oder abonniert? Die meisten rechnen pro Terabyte ab, man geht aber auch nach der Anzahl der Kerne in den physischen oder virtuellen Maschinen, auf denen die Software läuft. Dies ist für die Gesamtbetriebskosten (TCO) von Bedeutung.

Richtig gemacht, sollten die Gesamtkosten für die Verwaltung unstrukturierter Daten geringer sein als der bisherige Ansatz, sie überhaupt nicht zu verwalten.

Erfahren Sie mehr über Storage Performance

ComputerWeekly.de
Close