Smarte Speichersysteme für smarte Unternehmensprozesse

Neue Hardware und Software-Ansätze ermöglichen den Unternehmen, mehr zusätzliche Informationen wie zum Beispiel Metadaten aus ihren gespeicherten Daten zu ziehen.

von

Mike Matchett , The Taneja Group

Zuletzt aktualisiert: 22 Apr. 2019

Es ist noch nicht lange her, da waren Storage Arrays gut versteckt im Rechenzentrum und ohne viel Wissen um die in ihnen eigentlich gespeicherten Daten zu managen. Ein Storage-Administrator musste zum Beispiel vielleicht wissen, dass es sich um Daten einer Datenbank für eine Schlüsselapplikation handelte, die hohe Performance und solide Backups erforderte, aber der Datenbank-Administrator kümmerte sich um alle datenspezifischen Details. Heute verändert sich diese künstliche Trennung zwischen den Informationen über Daten und über ihre Speicherung – und zwar schnell.

Diese Annäherung schließt nicht nur die Lücken zwischen den bestehenden Silos der Infrastruktur, sie bringt auch die Distanz zwischen der Speicheraufgabe im Backend und der eigentlichen Bedeutung und der Verwendung der Daten im Frontend zum Einsturz. Es ist nicht länger wünschenswert oder sogar ausreichend, Bit-Muster tief in den Innereien des Rechenzentrums zu speichern und zu schützen, sondern man muss jetzt Speicher in einer Art und Weise verwalten, die direkt Geschäftsvorgänge voranbringt.

In der Tat wird es zu einer Notwendigkeit in der Konkurrenz, Daten auf jeder Ebene oder Schicht der Speichersysteme während ihres Lebenszyklus wirksam einzusetzen. Diese Entwicklung bringt Vorteile für die IT-Teams, da neue datengestützte Speichersysteme (Data-aware) der IT dabei helfen, eine führende Rolle bei den Geschäftsprozessen einzunehmen.

Intelligente Speichersysteme werden durch eine große Menge an CPUs, billigerem Flash und Memory, schnellen Software-defined Speicherfunktionen und angewandten Erkenntnissen aus der Welt von Big Data Analytics unterstützt. Im Inneren können intelligentere Speichersysteme ihre Kapazität und Performance verbessern durch ausgefeilte Deduplizierungs- und Komprimierungsmechanismen oder intelligente Datenplatzierung, durch an die Anwendungen angepasstes Caching und Tiering sowie durch regelgesteuerten Quality of Service (QoS) und Programme für Data Protection. Nach außen bedienen sich solche Storage-Systeme neuer Arten von Metadaten über die Innenseite der Daten, sorgen für besseres Management und für Kontrolle, für QoS-Reporting und Anpassung der Anwendungen und können sogar zu direkten Geschäftsergebnissen beitragen.

Die Ursprünge von Datenerkenntnissen

Datengestützte Speichersysteme haben ihre Wurzeln in alten Archivierungsarchitekturen von „Content-adressable Storage“, die aus ersten Object-basierten Archiven mit zusätzlichen Metadaten bestanden, um die Aufbewahrungsanforderungen genau zu managen (und womöglich auch die gesetzlichen Wiederherstellungsvorschriften zu erfüllen). Die Systeme wurden oft indexiert, und man machte diese Metadaten jenseits der ursprünglichen Inhalte verfügbar – und schließlich wurde sogar der Inhalt indexiert und für Suchanfragen bei E-Discovery-Prozessen zur Verfügung gestellt. Jedoch wurde diese Datenintelligenz offline in Post-Processing-Verfahren erstellt – angemessen für statische, bereits archivierte „kalte“ Speicherinhalte – und deshalb auch nur selten benutzt.

Das Aufkommen von Big-Data-Ansätzen vor über zehn Jahren zeigte, dass Mengen von aktiven, unstrukturierten und sehr unterschiedlichen Daten einen enormen geschäftlichen Erfolg haben konnten. Heute speichern die umfangreichen, im Web skalierbaren Objektspeicher, die in Cloud-Umgebungen populär sind und für die Unterstützung produktiver Web- und mobiler Anwendungen benutzt werden, oft alle Arten von Metadaten. Tatsächlich unterstützen diese Speicher anwenderdefinierte Metadaten, die Entwickler beliebig für fortgeschrittenes, anwendungsspezifisches Tagging oder Daten-Labeling ausdehnen können. Einige fortgeschrittene File-Systeme bauen Inhaltsindexe beim Aufnehmen der Daten ein, um Endanwendern Abfragen des primären Storage nach bestimmten Wörtern oder Ausdrücken zu ermöglichen.

Als ein Beispiel für diese Entwicklung kann man den Unterschied zwischen den zwei populären Online-Filesharing-Services Dropbox und Evernote betrachten. Beide können zum Speichern und Synchronisieren verschiedener Dateien über unterschiedliche Geräte hinweg und zum Sharing zwischen User-Gruppen verwendet werden. Dropbox war der ursprüngliche Standard, der Online-Filesharing und -Collaboration definierte, aber Evernote geht viel weiter – allerdings für eine engere Gruppe von Anwendungsfällen: Es ist von Haus aus inhaltsfokussiert mit vollen Suchfunktionen, Inline-Viewern und Editoren für übliche Dateiformate, besonderen Metadaten (zum Beispiel verfügbare Internetquellen, Referenzen, User Tagging) und Empfehlungen für „ähnliche Inhalte“. Obwohl ich beide täglich nutze, sehe ich Dropbox mehr als eine Filesharing-Alternative unter anderen, während Evernote mehr für meinen Workflow von Bedeutung ist.

Bewusstsein für IT-Daten

Rechtsanwälte von Unternehmen (für E-Discovery) und deren Detektive (in Sachen Security) brauchen Online-Systeme, die pro-aktiv unnormales Verhalten identifizieren, um frühe Warnungen über mögliche Schwachstellen zu liefern. Intelligente Data-aware-Speichersysteme können sich auf Informationen über solches Verhalten konzentrieren und dabei helfen, Dateien, Daten und Metadaten mit Mustern von bestimmten „Ereignissen“ zu korrelieren – wie zum Beispiel Abstürze von Anwendungen, voll laufenden File-Systemen, neuen Usern mit garantiertem Root Access und Shared oder versteckten besonderen Verzeichnissen.

Ich erinnere mich an einen besonders krassen Speichermissbrauch (auf einer DEC VAX!), als wir jemanden dabei erwischten, wie er immense Mengen an verbotenem Material auf einem wenig-zugänglichen File System hortete. Die heutigen mehr inhaltsbezogenen intelligenten Speichersysteme würden angesichts solcher Verstöße einen Sicherheitsalarm auslösen und schöpferische Nutzer warnen oder daran hindern, solche Grenzüberschreitungen in Gebiete zu unternehmen, die in der Regel einen Jobverlust nach sich ziehen.

Vorteile von Data-aware-Storage

Fein-granulierter Datenschutz: Storage, das zum Beispiel weiß, welche VM-Dateien oder -Volumes zu wem gehören oder – noch besser – welche speziellen Policies für einen angemessenen Datenschutz sorgen (zum Beispiel für den richtigen Grad von RAID oder Replikation).

Fein-granulierte QoS: In gleicher Weise Storage, der weiß, welche Datenbankdateien welche Arten von Performance-Beschleunigung erfordern, um direkt I/O- und Cache-Ressourcen für optimale Anwendungs-Performance zu unterstützen.

Indexierung und Suche von Inhalten: Große Speicher-Systeme, die für textbasierte Daten benutzt werden, können einen Extrawert durch Indexierung der Inhalte während der Datenerfassung liefern und eingebaute Suchfunktionen für Administratoren und sogar Endanwendern bereitstellen.

Analyse der Storage-Nutzer: Storage kann den Einsatz und Zugang von Nutzern und Gruppen als Metadaten nachverfolgen. Auf diese Weise können Anwender leicht herausfinden, wer im Unternehmen hatte vor kurzem Interesse an bestimmten Inhalten, sowie Collaborations-Muster in einer Gruppe identifizieren und auf deren Basis Empfehlungen für die Suche nach neuen Gegenständen erhalten – zum Beispiel nach dem Muster „Personen, die die Dinge schätzen, die ich mag, interessieren sich auch für X“.

Aktives Kapazitäts- und Leistungsmanagement: Storage kann auch die Metadaten nachverfolgen, die die Performance-, Kapazitäts- und Leistungszahlen der auf die Daten bezogenen Systemressourcen angeben. Dies ermöglicht den Speicheradministratoren einen direkten Einblick darüber, was sich in der IT-Infrastruktur für jedes Stück oder jede Gruppe an Daten ereignet, direkt zurück aufgezeichnet für Endanwender, Abteilungen und Anwendungen. Intelligentes Storage ist auch in der Lage, die eigene Konfiguration und die Anpassung an bestimmte Workloads zu optimieren.

Analytics und Machine Learning: Indem Storage intelligenter wird, wird es wachsende Beträge von einfachen Compute-Prozessen und automatischem Machine Learning geben, die direkt in den Storage-Layer integriert werden. Funktionen auf der Storage-Seite könnten dann dazu benutzt werden, automatisch Daten sogar dann, wenn sie erzeugt und gespeichert werden, zu kategorisieren, berechnen, übersetzen, visualieren und aufzuzeichnen.

Jenseits von Kontrolle und Schutz tendieren große „flache“ Ansammlungen von Dateien dazu, viele interessante Aspekte der Informationen zu verbergen, die nicht nur für die Suche nach Schlüsselwörtern, Begriffen oder Sätzen von Wert sein könnten, sondern auch für das Aufspüren von Material zu verwandten Konzepten – vielleicht durch eine Domain-spezifische „Taxonomie“. Zum Beispiel könnten Anwender Dokumente über Tomaten und Gurken finden, wenn sie nach Gemüse suchen, oder sie könnten interessiert daran sein, „wer“ ein bestimmtes Stück an Daten erzeugt hat, wer es sonst kopiert und mit anderen geteilt hat, und sogar wie oft und wie lang sie dieses betrachtet haben. Sie könnten auch herausfinden, welche Gruppe ist der größte Nutzer von bestimmten Daten-Sets, wer arbeitete an manchen Dokumenten mit, wer sonst würde sich mit etwas beschäftigen oder wer hat ähnliche Interessen und so weiter.

Während es schon länger e-Discovery mit mehreren Schichten gab, integrieren nun einige etablierte Speicher-Hersteller vollständig die Funktionen von Suchmaschinen direkt in funktions-übergreifende Bereiche.

Einige datengestützte Speichersysteme zeichnen auch Metadaten zu Einsatz und Qualität der eigenen I/O-Dienste auf einem fein-granulierten Datenniveau auf. Diese intelligenten Storage-Systeme können nicht nur darin auf sich selbst beziehen und erkennen, dass sie beobachten, wie jedes Stück an Daten logisch benutzt wird, sondern sie können auch I/O-Zugangsmuster (für User oder Anwendungen) und Performance im Zeitverlauf aufzeichnen. Mit langfristig angelegten Metadaten zu Zugangsmustern, gelieferter Performance und erforderlicher Kapazität für jedes Datenstück könnten solche intelligenten Speichersysteme sich selbst beobachten, optimieren und auf eine Umsetzung von QoS-Versprechen bei Skalierung hinarbeiten. Außerdem würden sie lernen, wie sie sich selbst verbessern und steuern könnten.

Ein neues Zeitalter der Datenwahrnehmung

Heute stehen wir am Beginn des Zeitalters von „Smart-Data-aware“-Arrays. Während es schon länger e-Discovery mit mehreren Schichten gab (Lucene/Solr von der Apache Foundation ist Open Source für Do-it-Yourself-Anhänger), integrieren nun einige etablierte Speicherhersteller vollständig die Funktionen von Suchmaschinen direkt in funktionsübergreifende Bereiche. Tarmin GridBank zum Beispiel umfasst einen komplett verteilten Metadata-Service, der für Identitäts-, Security- und Storage-Software-Anpassungen sorgt. Hewlett Packard Enterprise hat seine Content-leveraging Technologie IDOL direkt in die Speichersysteme integriert – heute mit den StoreAll Object Stores und zusammen mit einer neueren sehr schnellen Search Database mit Namen Express Query. Und vor einigen Jahren brachte Data Gravity ein Midrange Array heraus, das automatisch den Inhalt indexiert (auf der passiven Seite ihres Dual-Controllers) für eingebaute Textsuche und für die Ermittlung sozialer User-Muster.

Es gibt auch Qumulo, das für ein großes Beispiel als Anbieter von Data-aware-Storage steht, bei dem Performance- und Kapazitätszahlen für User, Anwendungen und Datenobjekte aufgezeichnet werden. Diese versetzen Qumulo in die Lage, QoS-Policies auf Datenebene anzuwenden und zu verstärken und so für große Sichtbarkeit in Details zu sorgen, wer und was genau Speicher auf verschiedene Arten und Weisen benutzt. Qumulo zeigt Administratoren, was wirklich bis hinunter auf Dateiniveau in dem Speichersystem passiert: So kann man leicht erkennen, welche Dateien und Verzeichnisse zu bestimmten Zeiten „hot“ oder nicht sind, und welche Kunden welche Bereiche der Dateistruktur besonders in Anspruch nehmen. Dies ist besonders nützlich, da Qumulo bis zur Speicherung von Milliarden an Objekten skalieren kann – ein Feature, bei dem externe Management-Tools wahrscheinlich an ihre Grenzen stoßen würden.

Ein anderes Gebiet von wachsendem Fokus auf Daten sind Produkte, die dazu beitragen, wie man am besten Daten auf der Basis erwarteter Verwendung im Cache, Speicher oder virtuell präsentiert. SteelFusion von Riverbed weiß zum Beispiel genug über die lokal erforderlichen Daten in einer Zweigstelle oder einem entfernten Büro, um Applikationen und virtuelle Maschinen (VMs) laufen zu lassen. Auf diese Weise können alle Daten im Rechenzentrum bleiben und geschützt werden, während man mit den WAN-Optimierungstechnologien von Riverbed planen kann, was an den Edge-Lokationen gebraucht wird. Die Speicherintelligenz für diese Art von Edge-„Virtualisierung“ erfordert Wissen über die Dateninhalte, über die Anforderungen an Datendienste und über die nötigen Ebenen von Datenschutz.

Applikation im Fokus

Storage-Systeme können sich auch mehr applikationszentriert entwickeln, wenn sie auf einem höheren Niveau mit Speicher-Clients zusammenarbeiten, um Datendienste zur Beschleunigung von Anwendungen und zur Reduzierung der Betriebskosten zur Verfügung stellen. Anstatt nur für LUNs, binäre Objekte oder Dateien zu dienen, stehen Storage-Systeme auf dem Anwendungsniveau für Datenkonstrukte wie zum Beispiel VM-Images oder Datenbank-Tables (oder „Chunks“ von Datenbankaufzeichnungen) zur Verfügung. Storage-Einstellungen für Datenschutz, Verfügbarkeit und Performance könnten dann mit Anwendungsbegriffen verwaltet werden.

Tintri (2018 vor drohendem Bankrott von DDN übernommen) kam zuerst mit Storage-Systemen heraus, die VMs direkt dem Hypervisor zur Verfügung stellen und Storage-Management in VM-Kategorien liefern. VMware hat inzwischen APIs (VAAI unter anderem) herausgebracht, die diesen Ansatz auf breiterer Ebene für traditionelle Array-Hersteller ermöglichen, und bietet sogar mit VSAN Software-defined Storage an, der auf dem VM-Niveau funktioniert.

Einige Applikationen sind in der Zwischenzeit mehr Storage-aware geworden. Dies ist im Prinzip auf ein wesentliches Design-Prinzip von Hadoop und von Big-Data-Ansätzen zurückzuführen, das angepasste Storage-Systeme auf dem Anwendungsniveau zusammenfasst. Zum Beispiel arbeitet HDFS von Hadoop (Hadoop Distributed File System) Hand in Hand mit dem hauptsächlichen Job Scheduling Service zusammen, um Compute Jobs zu bestimmten Storage Nodes zu schicken, auf denen benötigte Datenpartitionen gespeichert sind.

Kommende Datenintelligenz

Mit günstigerem Flash Non-Volatile Memory Express (NVMe) und Persistent Memory (zum Beispiel MRAM) rückt Storage sogar enger an Compute heran und wird mehr datenzentriert werden. Und ich habe keinen Zweifel, dass die Verbreitung des Internets of Things (IoT) und der mit ihm einhergehenden Datenexplosion weiterhin hoch intelligente konvergente Systeme für Storage- und Compute-Funktionen begünstigen wird.

Fazit

Daten haben immer Wert, aber dieser Wert muss gehoben, gereinigt und verfügbar gemacht werden. In der Folge sind Speicherarchitekturen intelligenter geworden, um das Erkennen der inhärenten Werte aller Arten von Daten zu erleichtern. Die konkurrenzfähigsten Unternehmen werden die intelligenteren Speichersysteme besitzen.