Blue Planet Studio - stock.adobe

AirMettle: Object Storage für Analytik und generative KI

AirMettle bietet eine Object-Storage-Lösung, bei der Analysen im Datenspeicher selbst durchgeführt werden. Die entwickelte Software läuft auf Standard-Hardware.

Die Analyse von Big Data ist für Unternehmen wichtiger denn je, bringt aber auch Herausforderungen mit sich. Das Verschieben von Daten, um sie zu analysieren, belastet Netzwerke und Budgets, wenn zum Beispiel eine Public Cloud genutzt wird. Und selbst bei diesem Ansatz ist der Erfolg nicht vorprogrammiert, so dass Kosten anfallen, ohne dass ein Mehrwert erzielt wird.

AirMettle bietet einen Ansatz, bei dem die Analysen im Data Lake selbst stattfinden. Die entwickelte Software läuft auf Standard-Hardware und liefert Erkenntnisse ohne den Overhead herkömmlicher Data Warehouses.

Datenbankabfragen 100-mal schneller

Die Plattform ermöglicht laut Donpaul Stephens, CEO und Gründer des Unternehmens, parallele Verarbeitung und beschleunigt den Datenbankzugriff um den Faktor 100 im Vergleich zu anderen Object-Storage-Lösungen, wie zum AWS S3.

AirMettle Screenshot 1
Abbildung 1: Datenabfragen sollen mit AirMettle 100-mal schneller sein.

„Wir bringen Software-Computing zum Storage, aber wir machen es richtig. Computational Storage gibt es schon seit 20 Jahren und es ist seiner Form auf dem Markt gescheitert. Wir sind Computational Storage, aber auf Systemebene und nicht auf Laufwerksebene“, sagt Stephens.

Kern der Technologie ist eine Software-defined Storage-Plattform mit verteilter Parallelverarbeitung, die direkte Abfragen von semi-strukturierten Inhalten ermöglicht. Der Vorteil besteht darin, den Netzwerkverkehr auf den Abfragedatensatz zu beschränken, und nicht den gesamten Datensatz verschieben zu müssen.

Standard-Objektspeicher speichern Objekte und ermöglichen den Zugriff auf sie. Die Lösung von AirMettle macht dies auch, ermöglicht aber den Zugriff auf Teile von Objekten. Die Software erkennt die Datenformate, die von den darauf zugreifenden Anwendungen verwendet werden, partitioniert/strukturiert die Daten entsprechend diesen Formaten und verteilt sie auf Objektspeicherknoten. Die Daten lassen sich somit parallel verarbeiten. Die Knoten setzen sich aus handelsüblichen Servern zusammen.

Datenverarbeitung wird ressourcenintensiver

Analyse- und KI-Trainingsdatensätze werden immer größer, so dass Server wie auch Grafikprozessoren (GPUs) immer stärker belastet werden. Sie benötigen mehr Arbeitsspeicher und schnellere Netzwerke, um die Datensätze schnell genug zu den GPUs zu bringen.

Laut AirMettle CEO Stephens verschärft sich diese Situation weiter. Storage für Analysen ist teuer und stößt bei wachsenden Datensätzen an Grenzen. Analytische Berechnungen sind ein teurer Weg, um irrelevante Rohdaten herauszufiltern, und schnellere Netzwerke sind teuer, eingeschränkt und verursachen zusätzliche Latenzzeiten. Besser ist es, den Datenspeicher so umzugestalten, dass kleinere Datenmengen an die Analyseprozessoren gesendet werden.

AirMettle unterstützt klassische Tabellendaten, Videodaten und andere Formate. Es deckt damit mehr als 90 Prozent der gespeicherten Objektdaten ab. „Wir verarbeiten mehrdimensionale Daten, zum Beispiel Klima- und Wetterdaten. Wir unterteilen die Daten in Unterebenen, was die parallele Verarbeitung erleichtert“, erklärt Stephens.

AirMettle Screenshot 2
Abbildung 2: AirMettle möchte mit seinem Ansatz die Kosten für Big-Data-Analysen deutlich senken.

Das Unternehmen verfügt über eine Datenbank für seine eigenen internen Metadaten, die etwa 0,1 Prozent des Inhalts ausmachen. Diese internen Metadaten ermöglichen eine parallele Analyse. Die richtigen Daten werden den Analyseprozessoren zugeführt, ohne dass sie einen ETL-Prozess (Extrahieren, Transformieren und Laden) benötigen. Das AirMettle-Speichersystem, ein intelligenter Data Lake, führt ETL intern durch und erfordert kein Data Warehouse.

Laut Stephens soll der Service noch in diesem Jahr auf den Markt kommen, nachdem er und sein Team vier Jahre daran entwickelt und getestet haben. Dabei hat das Start-up bisher keine klassischen Finanzierungsrunden durchlaufen und auf Risikokapital verzichtet. Für 2024 sind einige kritische Schritte vorgesehen, die den Mehrwert der Technologie nachweisen sollen.

AirMettle stellte seine Storage-Lösung im Rahmen der IT Press Tour (in San Francisco und Bay Area) vor, die mehrmals im Jahr Besuche bei Start-ups und IT-Unternehmen organisiert.

Erfahren Sie mehr über Datenanalyse

ComputerWeekly.de
Close