fotohansel - Fotolia

Das Internet of Things setzt Daten und Storage unter Druck

Das Internet der Dinge bringt aufgrund zahlreicher Geräte und Daten Herausforderungen mit sich. Wir betrachten Edge- und Core-Processing, Compliance und ILM im IoT.

Das Internet of Things (IoT) ist von vielen Seiten als das nächste große Ding angepriesen worden, mit dem sich Unternehmen auseinandersetzen müssten. Aber was ist genau IoT und in welcher Weise wirkt es auf Storage und die Art und Weise, wie wir mit Daten umgehen, ein?

IoT bezieht sich auf ein breites Netzwerk von physischen Geräten, zu denen Sensoren, Fahrzeuge, mobile Geräte und sogar Installationen in Häusern und Wohnungen gehören, die alle Daten erzeugen und miteinander teilen.

Für Unternehmen kann dies im Einzelnen das Aufzeichnen von menschlichen Bewegungen (oder zurückgelegten Fußschritten) bedeuten, oder es handelt sich um Server, die Maschinenanlagen steuern, um Daten, die von entfernten Zweigstellen gesammelt werden oder von allen Standorten, in denen das Unternehmen aktiv ist.

Die Bandbreite an möglichen Einsatzzwecken für IoT bedeutet, dass letztlich jedes Gerät außerhalb eines Rechenzentrums, das nützliche Informationen erzeugt, Teil einer IoT-Lösung sein könnte.

In der Regel betrachtet man IoT-Geräte als einzelne, entfernt gesteuerte und embedded Appliances wie zum Beispiel Kameras, aber das muss nicht immer so sein. Viele Unternehmen verfügen über verteilte Umgebungen, in denen ein oder mehrere Server in Zweigstellen laufen, um den Zugang zu den Gebäuden, Umweltkontrollen oder andere, mehr geschäftsbezogene, Aufgaben zu überwachen.

Insgesamt ergibt sich, dass IoT aus einem Sammelsurium aus Geräten besteht, die Inhalte über viele geographische Orte hinweg erzeugen, speichern und verarbeiten.

Verteilte Daten und IoT

Allgemein lässt sich sagen, dass sich die in diesem Zusammenhang geschaffenen Daten außerhalb des Rechenzentrums befinden.

Wir werden zunehmend mit dem Begriff „Edge“ (Rand) konfrontiert, bei dem es um die Durchführung von Computing- und Data-Management-Aufgaben außerhalb der zentralen Rechenzentren geht. Obwohl Edge Computing schon seit vielen Jahren existierte, ist die aktuelle Entwicklung bei IoT und Edge Computing besonders dem schieren Datenvolumen zuzuschreiben, das in Orten entfernt vom Rechenzentrum erzeugt wird.

All dies stellt die IT-Abteilungen vor ganz neue Herausforderungen: Sie müssen dafür sorgen, dass diese Daten angemessen gesichert, zugeordnet und verarbeitet werden.

Die meisten IT-Teams wissen genau, wo sich ihre Daten befinden. Mit dem Aufkommen von IoT ist es wesentlich wichtiger geworden, auch tatsächlich über alle geschäftlich relevanten Informationen zu verfügen – mit allen Implikationen für den Datenschutz der Anwender und für Regelwerke wie die DSGVO (Datenschutz-Grundverordnung).

Verteilte Prozesse

Auf der einen Seite werden immer mehr Informationen „at the edge“ erzeugt, auf der anderen Seite ist es aber fast unmöglich, die vielen Daten in angemessener Zeit zur Verarbeitung in die Rechenzentren weiterzuleiten.

Erstens muss ein Unternehmen davon ausgehen, dass dies angesichts der vielen verstreuten Geräte im Netzwerk nur durch massive Investitionen in das externe Netzwerk möglich sein wird.

Zweitens wird es sich in vielen Fällen angesichts des Werts der Daten nicht lohnen, den gesamten Inhalt zentral zu speichern. Wenn zum Beispiel eine Kamera an einer Straßenkreuzung die vorbeifahrenden Autos zählen soll, muss nicht das gesamte Video abgespeichert werden, sondern es kommt lediglich auf die Summe der Autos in bestimmten festgelegten Zeitabständen an. Die Videodaten könnten nach einiger Zeit wieder zurückübertragen oder einfach gelöscht werden.

Drittens sind die Zeiten zu berücksichtigen, die für die Verarbeitung der Daten benötigt werden. IoT-Geräte müssen eventuell schnell lokale Verarbeitungsentscheidungen treffen und können nicht die Latenzverzögerungen beim Lesen und Schreiben der Daten auf den Wegstrecken hin und zurück zu einem zentralen Rechenzentrum tolerieren.

Diese verteilten Daten und ihre Verarbeitung erfordern Fähigkeiten, mit denen die Unternehmen Computing- und Anwendungsprozesse zur Edge verlagern und dort in ersten Schritten auswerten können, bevor sie zum zentralen Rechenzentrum für die endgültige und langfristige Verarbeitung hochgeladen werden.

Der Lebenszyklus von IoT-Informationen

Als nächsten Punkt ergibt sich daraus eindeutig Information Lifecycle Management (ILM).

ILM hat in IT-Abteilungen seit mehr als 30 Jahren eine breite Anerkennung erfahren. Zu Beginn bezog sich das auf die Fähigkeit, Daten zwischen verschiedenen Speicherebenen in dem Maße zu bewegen, wie die Inhalte veralteten und weniger wertvoll wurden. Und schließlich würden die Daten in einem Archiv oder auf Band enden.

In modernen Unternehmen wird ILM heute in einer differenzierteren Art und Weise gebraucht.

Wie wir bereits gesehen haben, werden Daten heute immer mehr an der Edge erzeugt und dann dort in der Nähe mit entsprechenden Geräten und Anwendungen bereits etwas bearbeitet. Mit der Zeit können die Daten dann an zentralen Orten für die weitere Bearbeitung konsolidiert werden.

Unternehmen beginnen immer mehr damit, durch den Einsatz von Technologien wie Artificial Intelligence (AI) und Machine Learning (ML) zusätzlichen Wert aus allen ihren Daten zu ziehen. AI- und ML-Systeme erfordern große Datenmengen, um Modelle zu trainieren und Algorithmen zu entwickeln, die dann wiederum an die Edge-Systeme als Teil einer Prozesskette zurückgesandt werden.

Bei einer Struktur dieser Art scheint ILM nicht gerade zu einer Optimierung der Speicherkosten der Daten beizutragen, sondern dazu, wie sie während der Arbeitsprozesse und im Zeitverlauf an den richtigen Stellen platziert werden können. Damit sehen wir den Informationsfluss, wie er bei der Edge beginnt und sich zu den zentralen Orten fortsetzt und dort weiteren Wert aus ihnen zieht.

IoT und Public Cloud

IoT-Daten sind meistens unstrukturiert und können deshalb leicht in Public-Cloud-Infrastrukturen gespeichert werden.

Alle größeren Cloud-Provider bieten günstige und skalierbare Speichersysteme an, die auf Object Storage basieren. Mit Highspeed-Netzwerken und keinen Kosten für eingehende Daten sind Public Clouds ein ausgezeichneter Ort, um die Mengen an IoT-Daten, die während der Geschäftsprozesse entstehen, zu speichern .

Aber die Public Cloud bietet noch mehr. Die Anbieter von Cloud Services haben ihre Produktpalette ausgedehnt und Tools für Big Data Analytics aufgenommen, die große Mengen an unstrukturierten Inhalten aufnehmen und verarbeiten. Dies erlaubt es Unternehmen, große sehr skalierbare ML/AI-Applikationen zu entwickeln, die Daten wesentlich effizienter verarbeiten, als das in einem privaten Rechenzentrum passieren könnte.

Neue Lösungen für IoT

Sieht man sich auf dem Markt um, entdeckt man eine ganze Reihe von neuen Produkten und Lösungen. Im Folgenden ein paar Beispiele dafür, wie dabei die Anforderungen von IoT und Storage adressiert werden.

Einige Start-ups entwickeln vor Ort installierte Speichergeräte, mit denen die Daten an der Edge analysiert werden können.

NGD Systems bietet zum Beispiel eine Reihe von Produkten für „Computational Storage“ an, die wie traditionelle NVMe-SSDs aussehen, mit denen aber auch Anwendungscode direkt auf dem Drive laufen kann.

Inzwischen bietet ScaleFlux eine ähnliche Technologie an, mit der allgemeine Aufgaben wie Erasure Coding oder Database Acceleration auf das Speichergerät ausgelagert werden können.

Amazon Web Services (AWS) stellt mit Snowball die Fähigkeit zur Verfügung, Edge-Daten in AWS S3 zu importieren. Eine Snowball-Appliance ist letztlich ein mit Storage angereicherter widerstandsfähiger Server, der für den physischen Transport der Daten von einer Offsite Location benutzt werden kann. AWS hat darüber hinaus mit Snowball Edge eine weitere Funktion hinzugefügt, die Local Data Processing entweder mit EC2-Instanzen oder mit Lambda-Funktionen erlaubt.

Pure Storage, NetApp und DDN haben alle konvergente Infrastrukturen oder Hardwarereferenz-Architekturen entwickelt, um Storage als Unterstützung fūr On-Premises-ML/AI-Systeme zu verwenden. In diesen Umgebungen liefert die Storage-Hardware die Fähigkeit, große Datenmengen parallel und mit extrem geringen Latenzen zu verarbeiten.

Microsoft arbeitet an dem Projekt „Brainwave“, bei dem angepasste Hardware Daten in Echtzeit verarbeitet, die aus externen Quellen eingespeist werden. Dies bedeutet einen Schritt vorwärts in Richtung AI-Prozesse in Echtzeit.

Google bietet bereits Dienste auf der Google Cloud Platform an, mit denen große Data Sets verarbeitet werden, wobei diese Technologie besonders in vertikalen Branchen Anwendung finden soll. Google befindet sich noch im Anfangsstadium dieser Entwicklung, bei der individuell angepasste ASIC-Hardware an der Edge eingesetzt werden soll, um die ersten Schritte für ML/AI-Datenverarbeitung zu unternehmen.

Start-ups aus dem Storage-Software-Sektor wie WekaIO, E8 Storage und Excelero haben Produkte entwickelt, die skalierbares File- und Block-Storage für Analytics-Anforderungen mit niedrigen Latenzen zur Verfügung stellen. Im Fall von WekaIO kann die Software auch auf einer Public Cloud (AWS) installiert werden, um eine hoch skalierbare Speicherplattform auf der Basis von NVMe-Storage zu schaffen.

Mit StorMagic, einem Unternehmen aus Großbritannien, lässt sich ein skalierbares und elastisches Speichersystem an der Edge implementieren, das SvSAN nutzt. Das Unternehmen hat bereits Tausende von SvSAN-Systemen an Edge-Standorten eingerichtet, die auf Standard-Hypervisoren laufen – darunter Wind-Farmen und Retail-Outlets.

HCP von Hitachi Vantara eignet sich als zentralisierter Object Store und als Archiv für IoT-Daten. Tools wie die Pentaho-Plattform von Hitachi virtualisieren dann diese Daten und machen es so leichter, Datenverbindungen zu schaffen, um mehr Wert für das Unternehmen aus verschiedenen Content Stores zu erzeugen.

Herausforderungen für IoT

Wenn man die verschiedenen Speicherlösungen im Umfeld von IoT betrachtet, fällt sofort die mangelnde Standardisierung auf.

Es gibt keine „Best Practices“ oder allgemein gültige Industriestandards, um den sicheren Zugang und Transport in die zentralen Rechenzentren zu garantieren. Die Daten werden in der Regel auf eine asynchrone Art und Weise verschoben, bei der Unregelmäßigkeiten und Inkonsistenzen mit den Kopien im Rechenzentrum auftreten können.

Es müssen auf jeden Fall Standards und Tools entwickelt werden, um auch die Daten außerhalb der Rechenzentren mit den gleichen Security- und Konsistenz-Anforderungen zu versorgen wie in den Public und Private Clouds.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Internet of Things: Sechs Gründe für objektbasierten Speicher

IoT-Storage: Sieben Fragen an Entwickler

IoT- und AI-Daten: Darum eignet sich Flash-Storage im Gesundheitswesen

Erfahren Sie mehr über Datensicherheit

ComputerWeekly.de
Close