tonda55 - Fotolia

Die Nachfrage nach kaltem Speicher nimmt zu

Neue Technologien erlauben es, wenig oder gar nicht benutzte kalte Daten automatisch auf kostengünstige Systeme zu verschieben. Das macht Cold Storage zu einer interessanten Lösung.

Daten wandern in kalte Speichersysteme, wenn sie nur gelegentlich oder gar nicht aufgerufen werden. Kalter Speicher erfüllt dann die Funktion, diese Daten für Compliance-Zwecke vorrätig zu halten – oder sie haben vielleicht in der Zukunft einen Wert.

Außerdem könnte die IT-Abteilung besorgt sein, dass man die Daten genau dann braucht, nachdem sie gelöscht wurden. Diese Art von Storage kostet in der Regel viel weniger als primärer oder sekundärer Speicher und verfügt dementsprechend über geringere Performance.

Der Ausdruck kalte Daten wird häufig vermischt mit kaltem Datenspeicher, aber in Wirklichkeit können sie überall, auf jedem Speichermedium und -system, existieren. Kalte Datenspeicher sind dagegen Systeme, die extra für das Aufbewahren von kaum oder nicht mehr benutzten Daten entwickelt wurden.

Auf der Seite von Cold Storage gibt es eine beträchtliche Bandbreite von der Häufigkeit und Performance des Datenzugangs bis zur Langlebigkeit von Medien und Datenbeständigkeit sowie Haltbarkeit. Kalte Daten können warm oder heiß werden, wenn Anwender sie plötzlich benötigen. Solche Vorfälle komplizieren die Nutzung dieser Systeme und können zu unerwarteten Kostensteigerungen führen.

Seit kurzem ist Cold Storage aus verschiedenen Gründen zu einem heißen Thema geworden:

Exponentielles Datenwachstum. Die Analysten von IDC erwarten, dass der Betrag an jährlich geschaffenen Daten bis zum Jahr 2020 44 Zettabytes übertreffen wird und danach weiter schnell ansteigen wird. Die meisten dieser Daten sind nicht aktiv oder werden selten benutzt, wobei etwa 80 Prozent oder mehr davon unstrukturierte Daten sein werden – häufig von Maschinen wie bei Sicherheitsvideos und Log-Files erzeugt.

Konsum von Primär-Storage. Speicher ist die einzige Technologie im Rechenzentrum, die regelmäßig konsumiert oder aufgebraucht wird. Die meisten Daten werden in ihrem Lebenszyklus auf dem primären Storage-System verweilen, auf dem sie ursprünglich gelandet sind – im Grunde also für immer.

Selbst wenn Primary Storage aktualisiert oder ergänzt wird, werden kalte Daten auf dem neuen System ankommen und weiter teuren Primär Storage und SSD-Medien wie NAND Flash besetzen.

Diese Ressourcen für aktive Daten zu nutzen, macht Sinn, aber nicht für kalte Daten, die selten – wenn überhaupt – aufgerufen werden.

Wenn Primary Storage für kalte Daten verbraucht wird, muss mehr davon gekauft und für wirklich aktive Daten eingesetzt werden. Cold Data benötigen nicht die hohe Performance, niedrigen Latenzen und die vielen Funktionen von primären Speichersystemen.

Leider machen kalte und kühle Daten den größten Bestandteil der Daten bei Primary Storage aus: Ihr Anteil liegt bei 75 bis 90 Prozent des Speichers in Rechenzentren.

Zugriffskontrollen im Zeitverlauf zeigen, dass Daten in den ersten 72 Stunden nach ihrer Erzeugung am meisten aktiviert werden. Danach kühlen sie deutlich und schnell ab, werden nach 30 Tagen kühl und sind nach 90 Tagen endgültig kalt.

Hamster-Syndrom. IT-Abteilungen zögern oft, Daten wegzuwerfen. Es gibt eine untergründige Angst, dass alle weggeworfenen Daten unmittelbar danach doch gebraucht werden. Dies geht Hand in Hand mit der Auffassung, dass alle Daten einen Wert haben – egal, ob das richtig oder falsch ist.

Compliance und gesetzliche Vorschriften. Neue Standards und Regeln, die datenbezogene Compliance erfordern, sind auf dem Vormarsch. Dazu gehören die neuen Datenschutzregeln der EU (DSGVO), die Bank- und Cybersecurity-Regeln für Finanzinstitutionen in New York, der Health Insurance Portability and Accountability Act (HIPAA), der HITECH Act, Basel I, II und III, Sarbanes-Oxley (SOX) und OSHA. Viele dieser Vorschriften verlangen, dass bestimmte Typen von Daten für Jahrzehnte oder sogar Jahrhunderte vorrätig gehalten werden.

Analysen von unstrukturierten Daten. Da etwa 80 Prozent aller neuen Daten unstrukturiert sind, sollten Möglichkeiten gefunden werden, diese Informationen für verwertbare Hinweise und Einsichten zu erschließen. Diese Situation hat bereits zu einer Explosion an analytischen Methoden für unstrukturierte Daten geführt, deren Umsätze sich laut IDC bis zum Jahr 2015 auf mehr als 125 Milliarden Dollar belaufen werden. Diese unstrukturierten Daten für zukünftige Analysen zu speichern, muss kosteneffektiv sein.

Kosteneffektivität. Cold Storage ist insofern praktisch, da ihre Speicherkosten ihrem niedrigen Wert angemessen sind. Es sind mehrere Optionen bei Speichersystemen und Medien für kalten Speicher am Markt verfügbar sowie genauso zahlreiche Optionen für Cloud Services. Obwohl alle ihre Vor- und Nachteile haben, sind sie jedoch alle gleichermaßen in der Lage, die Kosten für Cold Storage nach unten zu drücken. Resultat: Cold Storage kann sich eigentlich jeder leisten.

Speichersysteme für Cold Storage

Speichersysteme für Cold Storage gibt es schon seit Jahrzehnten, ursprünglich als automatisierte Tape Libraries und optische Jukeboxes mit herausnehmbaren Medien.

Eingesetzt wurden sie meistens von größeren Unternehmen. In dem Maße wie unstrukturierte Daten exponentiell angewachsen sind, haben sich auch Speichersysteme entwickelt, um den neuen Anforderungen gerecht zu werden.

Es sind neue Systeme entstanden, die auf dem Linear Tape File System (LTO) und auf Objekt-Storage basieren. Facebook und dessen Open Compute Project, das sich um die Entwicklung von Open Source Hardware kümmert, haben viel für diese neuen Systeme getan. Diese und andere Entwicklungen haben zu vier Typen von Speichersystemen für kalte Daten geführt:

LTFS-Frontend Automated Tape Library (ATL). Das LTFS- oder Object-Store Frontend ist ein kleiner, relativ skalierbarer lokaler Cache für eine ATL, der für Anwendungen und User wie ein Disk-Storage-System aussieht und sich auch so benimmt.

Er beschleunigt Write- und in einigen Fällen auch Read-Prozesse und stellt eine Performance zur Verfügung, die sich mit NAS auf der Basis von Festplatten oder mit Object Store messen kann. Zu den Herstellern gehören Dell EMC, Fujifilm-StrongBox Data Solutions, Fujitsu, Hewlett Packard Enterprise (HPE), IBM, Oracle, Quantum, Siemens und Spectra Logic.

Schlanke Object-Storage- oder Scale-Out NAS-Systeme. Traditioneller Objekt-Speicher bietet unbegrenzte Skalierbarkeit und wird ursprünglich für günstige aktive Archive mit großen Kapazitäten benutzt.

Die heruntergestrippte Version mit weniger Storage Nodes hat man zum Speichern von Cold Data eingesetzt. Sie bietet durch den Einsatz von durchdachtem Erasure Coding außergewöhnliche Haltbarkeit der Daten – oft sogar bis zu 99,999999999 Prozent – und verzeichnet weit weniger Overhead als Multicopy Mirroring.

Es gibt eine untergründige Angst, dass alle weggeworfenen Daten unmittelbar danach doch gebraucht werden. Dies geht Hand in Hand mit der Auffassung, dass alle Daten einen Wert haben – egal, ob das richtig oder falsch ist.

Wird zum Beispiel dreifaches Copy Mirroring bei Hadoop Storage benutzt, verbraucht jede Kopie 100 Prozent mehr an Speicher. Und drei Kopien verbrauchen 300 Prozent mehr Storage. Um sich gegen drei gleichzeitige Ausfälle mit Erasure Code zu schützen, werden höchstens 33 Prozent mehr Storage verbraucht, in der Regel sogar weniger. Erasure Code bietet ferner eine außergewöhnlich hohe Langlebigkeit der Daten, ungeachtet der darunterliegenden Medienbeschaffenheit.

Hersteller sind unter anderem Caringo, Cloudian, Concurrent mit seinem Aquari-Produkt, DataDirect Networks, Dell EMC, Elastifile, Hitachi Data Systems, HPE, IBM Cleversafe, NooBaa, OpenIO, Quantum, Qumulo, Red Hat Ceph Storage, Rozo Systems, Scality, SwifStack und Western Digital HGST.

Schlanke Objekt-Storage- oder NAS-3D-Flash-Systeme mit Quad-Level Cell (QLC). Diese gerade entstehenden Speichersysteme für Cold Data sollen in der ersten Hälfte des Jahres 2018 auf den Markt kommen. Ihre Arbeitsweise ist ähnlich wie die der schlanken Object-Storage-Systeme mit Festplatten, aber mit einigen wesentlichen Unterschieden. Die 3D QLC Solid State Disks (SSDs) sind deutlich schneller und dichter gepackt – zehn bis 20 Mal dichter – als Festplatten, und sie speichern Daten sehr unterschiedlich, was noch wichtiger ist.

Die kleinste beschreibbare Einheit auf einer SSD ist der Program Erase (PE) Block, der von 512 Bytes bis zu 256 KB reicht. Daten können nicht geändert werden, wenn sie auf einen PE-Block geschrieben wurden.

Der PE-Block muss zuerst gelöscht werden, und nur eine begrenzte Zahl dieser Aktionen ist möglich. Die Anzahl der Schreibprozesse ist in der Zwischenzeit durch die Anzahl der Bits pro Zelle bestimmt. QLC-Flash ist auf 100 bis 1.000 Schreibprozesse per PE-Block beschränkt, und PE-Blöcke fallen eher aus als das komplette SSD-Laufwerk.

Erasure Coding kann PE-Blöcke auf die gleiche Art behandeln wie es mit Drives geschieht, aber dafür sind Modifikationen auf dem Flash-Layer erforderlich. Dieses Vorgehen macht Objekt-Storage oder Scale-Out NAS mit e3D QLC SSDs besonders geeignet und kostensparend für Cold Storage.

Derzeit ist Tachyum der einzige Hersteller, der auf 3D QLC Flash setzt.

Hoch skalierbare optische Archivsysteme für Cold Storage. Optische Speichersysteme, auch optische Jukeboxes genannt, haben Schritt gehalten mit der Explosion der kalten Daten. In der Vergangenheit benutzten diese Systeme Medien mit geringer Kapazität und langsamer Streaming-Performance. Das trifft nicht mehr zu.

Die Kapazität optischer Scheiben hat von 100 GB auf 300 GB zugenommen, während in wenigen Jahren optische Platten mit 500 GB bis 1 TB erwartet werden. Zwölf optische Platten werden in Tape-ähnlichen Cartridges zusammengefasst, wobei jede Cartridge als ein einziges Speichergerät adressiert werden kann.

Eine Jukebox kann Dutzende oder Hunderte dieser Cartridges umfassen und sie parallel ansprechen. Dieses Vorgehen verbessert die Transfer- oder Durchsatz-Performance im Vergleich zu den Konkurrenten Festplatte, Tape und SSD bis auf 360 MBps.

Zu den Herstellern solcher hoch skalierbarer optischer Archivsysteme gehören Panasonic und Sony.

Effektive Kosten für Cold Storage

Kosteneffektive Systeme für Cold Storage erfordern günstige Medien. Es kommt alles auf die Kapazitätsdichte an – den Betrag an Rohkapazität auf einem Festplatten- oder SSD-Laufwerk oder einer Tape- oder optischen Cartridge – sowie auf die Total Cost of Ownership (TCO). TCO umfasst Anschaffungskosten und unterstützende Infrastrukturausgaben wie zum Beispiel Energie-, Kühlungs-, Wartungs- und Betriebsaufwand.

Herausnehmbare Medien wie Band- und optische Laufwerke erfordern weniger Energie und Kühlung als Festplatten und SSDs – und gar keine, wenn sie herausgenommen sind. Die Umdrehungsgeschwindigkeit von Festplatten kann heruntergefahren werden, um Energie- und Kühlungsaufwand zu reduzieren, während im Vergleich zu Festplatten sehr dicht gepackte 3D QLC Flash SSDs nur einen kleinen Teil von beiden verbrauchen.

Festplatten laufen hauptsächlich mit 7.200 rpm bei einem Formfaktor von 3,5 Zoll, wobei sie heute bis zu 12 TB Rohkapazität abdecken. Ihre Bandbreite reicht von vier bis zwölf TB.

Medienoptionen für Cold Data Storage

Festplatten kosten relativ wenig per Gigabyte, sind gut brauchbar für Such- oder Analyseaufgaben und verfügen über eine Langlebigkeit der Daten, wenn sie zusammen mit Erasure Coding laufen.

Aber sie sind elektromagnetische Geräte, die eine Menge Energie verbrauchen, viel Hitze erzeugen und einen entsprechend hohen Kühlungsaufwand erfordern. Außerdem haben sie eine relativ kurze Lebensdauer, und Laufwerke ohne Stromversorgung können die Daten nicht länger als etwa vier Stunden behalten. Fette Festplatten mit hohen Kapazitäten gibt es von Seagate, Toshiba und Western Digital.

3D QLC Flash SSDs verfügen über erhebliche Kapazität, erfordern weniger Laufwerke, Racks, Energie, Kühlung und persönliche Betreuung durch das Support-Personal. Sie arbeiten gut zusammen mit Datenreduktion und Erasure Coding.

Eine relativ geringe Produktion bei den entsprechenden Herstellern und eine hohe Nachfrage hält die Flash-SSD-Preise auf einem höheren Niveau als erwartet, was umgekehrt den praktischen Einsatzwert von 3D QLC schmälert.

Die Produktionsmengen und das Angebot sollen im Jahr 2018 zunehmen, was zu Preissenkungen bei gleichzeitig steigender Nachfrage für Cold Storage führen dürfte. 3D QLC Flash Drives wird es von SK Hynix, Micron-Intel, Samsung und Western Digital geben. Die ersten Exemplare wurden bereits zu Ende 2017 ausgeliefert.

LTO Tape Cartridges sind die billigsten Medien für Cold Storage. Die Performance nimmt mit jedem Release zu, und die Tape-Technologie ist nun bei den Spezifikationen von LTO-10 angekommen. Vor kurzem von Fujifilm und IBM angekündigte Verbesserungen bei der Tape-Dichte werden die LTO-Kapazitäten in den nächsten zehn Jahren auf 330 TB roh und 825 TB komprimiert anwachsen lassen.

Damit wird Tape sogar noch kostengünstiger werden. Dennoch bleibt die Performance der Such- und Kooperationsfunktionen begrenzt und langsam, und man braucht große Tape Libraries auf Roboterbasis für größere Datenmengen. Werden zudem die Tapes aus der Library nach einiger Zeit herausgenommen, werden Such- und Analytics-Aufgaben noch schwieriger und quälend langsam. Aktuelle LTO-8 Tape Cartridges gibt es von Fujifilm, IBM, Sony und OEM-Partnern dieser Hersteller.

Optical Media Cartridges sind unveränderliche Medien. Sie verfügen über die längste Lebenszeit ohne Datenverlust, wobei sie zwischen 50 und 1.000 Jahren schwankt.

Die Durchsatz-Performance hat die von Festplatten und LTO-Tape erreicht. Auf der anderen Seite ist die Anzahl der Lieferanten auf MDISC, Panasonic und Sony begrenzt, wobei sich Sony nur halbherzig zu optischen Medien bekannt hat. Die Kommunikation mit anderen Medien verläuft noch immer langsam, während alle optisch aufgezeichneten Daten dauerhaft vorrätig bleiben.

LTO Tape, gegenwärtig in der Version LTO-8, liegt bei der Rohkapazität bei 12,8 TB und komprimiert bei 32 TB. Die ersten 3D QLC SSDs (mit vier Bits pro Zelle) sollen bei einem Formfaktor von 2,5 Zoll Rohkapazitäten von 128 TB liefern. Die optischen Medien – Blu-ray, Archivplatten und MDISC – haben deutliche Kapazitätsgewinne erzielt.

Cloud-Angebote für Cold Storage

Die Renaissance von Cold Storage wird oft mit Facebook in Zusammenhang gebracht, aber der Einfluss von Amazon Web Services (AWS) dürfte vermutlich noch größer sein.

Als AWS als erste mit Glacier für Cold Storage in der Cloud mit dem niedrigen Preis von einem US-Cent pro Gigabyte und Monat herauskam (inzwischen sind es 0,45 US-Cents, Region EU/Frankfurt), löste dies eine außerordentliche Konkurrenz unter den Service Providern für Cloud Storage aus. Microsoft Azure Blob Storage ist bereits ab 0,18 Euro-Cent erhältlich (Region Europa/Norden).

Der Pionier für Cold Storage

Facebook hat mit seinem wirklich gigantischen Wachstum auch Erfahrungen mit dem außergewöhnlichen Anstieg von kalten Daten gemacht. Das Unternehmen ist Pionier beim Einsatz von besonders skalierbarem optischen Speicher und wenig umfangreichem Object Storage auf Festplatten und QLC Flash-SSDs gewesen. Facebook fährt damit fort, die Entwicklung von Cold Data Storage bis hin zu Petabytes (PB) und Exabytes zu verbessern und alle Neuerungen der OpenCompute.org zur Verfügung zu stellen.

Das Unternehmen benutzt oberhalb von Festplatten massiv skalierbare optische Jukeboxen und dünnen Object-Speicher. Diese Form von Object Storage verkleinert die Anzahl von Server-Nodes für Speicher und vergrößert die Anzahl von Laufwerken pro Node, indem Erasure Code eingesetzt wird. Facebook verbessert diese dünnen Object-Speicher zusätzlich mit 3D QLC SSDs.

Die Facebook-Entwicklungen von Systemen für Cold Storage sind kommerzialisiert worden. Die optische Jukebox mit ihren großen Kapazitäten gibt es beim Partner Panasonic als fix ausgestattetes System, das gegenwärtig in einem 19-Zoll-Rack bis 1,9 PB skalierbar ist und bis 2020 auf mehr als 6 PB erweiterbar sein soll. Der Facebook-Partner Tachyum plant, das von Facebook entwickelte dünne Object-Storage-System mit 3D QLC SSDs auf den Markt zu bringen.

Heute bieten Dutzende von Unternehmen verschiedene Typen von Services für Cold Storage an, einschließlich Varianten von Object Storage auf Basis von Festplatten. Andere benutzen LTFS Tape-Systeme. Alle sind nicht teuer, wobei die Preise von einem Cent bis herunter zu 0,1 Cent pro Gigabyte und Monat reichen. Die Preise können sich jedoch verdoppeln, verdreifachen oder sogar vervierfachen, in Abhängigkeit davon, wie schnell ein System Daten liest und wiederherstellt.

Es handelt sich eben um Speicherung von kalten Daten, und es herrscht die Vorstellung vor, dass jede Wiederherstellung von Daten trivial und selten sei. Cold Data Storage ist erhältlich bei allen größeren Cloud-Providern, einschließlich AWS, Google, IBM, Microsoft, Oracle und vielen mehr.

Management und Verschieben von unstrukturierten Daten

Unstrukturierte Daten müssen von ihrem ursprünglichen Speicherplatz zu Cold Storage verschoben werden. Dies kann sich schnell zu einer arbeitsintensiven Datenmigration per Hand gestalten.

Jedes Verschieben von Daten wird zu einem größeren Projekt, das viel Personal, professionelle Services oder beides erfordert. Projekte wie diese können teurer werden als die erwarteten Ersparnisse durch das Verschieben auf Cold Storage, was erklärt, warum Cold Storage solange ein kalter Markt war, den niemand betreten wollte.

Software für das Management von unstrukturierten Daten hat jedoch die Landschaft von Cold Data verändert. Sie verschiebt auf Basis von Regeln und nachvollziehbar Daten von primärem zu Cold Storage – Regeln wie zum Beispiel Umfang und Häufigkeit des Datenzugriffs, Alter der Daten und der seit dem letzten Zugriff vergangenen Zeit. Dateien und Objekte werden kopiert, verschoben und vom ursprünglichen Speicherplatz gelöscht, wodurch Platz für aktive Hot Data geschaffen wird. Anwender und Applikationen werden automatisch mit ihren Daten verlinkt.

Die Software kann so viele Kopien der Dateien und Objekte wie notwendig anfertigen und sie zu Cold Data Storage in der Cloud, LTFS Frontend-ATLs, optischen Jukeboxen und dünnen Objektspeichern verlagern – unabhängig davon, um welche Medien es sich handelt.

Zu den Herstellern, die solche Software zur Verfügung stellen, gehören Actifio, Catalogic, ClarityNow, Cohesity, Commvault, Enmotus, Komprise, Moonwalk Universal, NTP Software, Primary Data, Rubrik, Starfish, StrongBox Data Solutions und Veritas.

Die Software für das Management und das Verschieben von unstrukturierten Daten hat besonders in der Verbindung mit neuen kostengünstigen Systemen und Medien für Cold Storage dafür gesorgt, dass die Technologie von Cold Storage in der Praxis eingesetzt werden kann. Sie hat dafür gesorgt, dass ein eingefrorener und nicht aktiver Markt heiß geworden ist.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook! 

Nächste Schritte

Daten im Cloud-Kühlschrank: Amazon Glacier gegen Microsoft Cool Blob

So sichern Sie Ihre Bandlaufwerke richtig gegen Missbrauch

Microsoft Azure Blob Storage im Überblick

Erfahren Sie mehr über Software-defined Storage

ComputerWeekly.de
Close