
stock.adobe.com
Object Storage entwickelt sich zur Option für KI-Workload
Object Storage entwickelt sich weiter und bietet mittlerweile auch die Möglichkeit, umfassend für moderne Workloads wie KI eingesetzt zu werden. Der Beitrag zeigt die Optionen.
Object Storage hat sich von einer grundlegenden Speichertechnologie zu einer zentralen Komponente moderner IT-Infrastrukturen entwickelt. Ursprünglich für die Speicherung großer Mengen unstrukturierter Daten konzipiert, erfüllt Object Storage heute Anforderungen an Leistung, Skalierbarkeit und Datenmanagement, die speziell für KI-gestützte Workloads und moderne Datenstrategien entscheidend sind.
Leistungsfähigkeit durch moderne Speichertechnologien
Durch den Einsatz moderner Speichertechnologien wie QLC-NAND-Flash und Storage Class Memory können Object Storage-Systeme hohe I/O-Leistungen erreichen. Diese Kombination erlaubt es, große Datenmengen effizient zu speichern und dabei geringe Latenzzeiten sowie hohe Haltbarkeit zu gewährleisten. Hochparallele I/O-Architekturen und Protokolle wie NVMe over Fabrics (NVMe-oF) und RDMA optimieren den Zugriff auf Daten und unterstützen komplexe Workloads, wie sie in KI-Umgebungen auftreten. Dies macht Object Storage zu einer skalierbaren und zukunftssicheren Lösung.
Entkopplung von Storage und Compute
Ein weiterer Vorteil moderner Object-Storage-Lösungen liegt in der Entkopplung von Storage und Compute. Diese Disaggregation ermöglicht es, beide Komponenten unabhängig voneinander zu skalieren und so die spezifischen Anforderungen der jeweiligen Workloads optimal zu unterstützen. Object Storage dient dabei zunehmend als primäre Speicherplattform für Datenbanken und ersetzt traditionelle Speicheransätze, die in Cloud-Umgebungen oft an ihre Grenzen stoßen. Während Object Storage bislang vor allem für Backup- und Wiederherstellungsszenarien genutzt wurde, rückt nun die Verwendung als zentraler Speicher für Datenbanken in den Fokus.
Datenstrategien mit Open-Table-Formaten
Die Integration von Object Storage in moderne Datenstrategien wird durch die Verwendung von Open-Table-Formaten wie Parquet oder Arrow erleichtert. Diese Formate bieten Vorteile wie Zeitreisen (Time Traveling), ACID-Transaktionen und Schema-Enforcement. Sie ermöglichen es, Rohdaten im Data Lake zu speichern und bei Bedarf flexibel darauf zuzugreifen. Dies reduziert den Datenverlust und erhöht die Wertschöpfung aus vorhandenen Datensätzen.
Darüber hinaus profitieren Unternehmen von der nativen Unterstützung externer Tabellen durch viele Datenbankanbieter wie PostgreSQL, Snowflake oder SQL Server. Diese Technologie erlaubt es, Daten direkt aus dem Object Storage abzufragen, ohne sie in die Datenbank zu migrieren. Dadurch lassen sich Sicherheitsrisiken minimieren und die Effizienz steigern. Leistungsstarke Query-Engines wie Trino oder StarRocks können direkt auf Object Storage zugreifen und so eine schnelle Datenanalyse ermöglichen.
Vorteile moderner Object Storage-Lösungen
Moderne Object-Storage-Lösungen bieten Disaster-Recovery-Funktionen, die Ausfallzeiten minimieren, und können sowohl kleine als auch große Workloads gleichermaßen effizient bewältigen. Die Rolle von Object Storage in KI- und Machine-Learning-Anwendungen wird immer bedeutender. Moderne Object-Storage-Systeme sind auf die Anforderungen von Large Language Models (LLMs) und anderen KI-Workloads abgestimmt. Diese Anwendungen generieren und verarbeiten enorme Datenmengen, die effizient gespeichert und abgerufen werden müssen.
Object Storage bietet die nötige Skalierbarkeit und Leistung, um Trainingsdaten schnell bereitzustellen und Modelle effektiv zu aktualisieren. Ein entscheidender Vorteil liegt in der Skalierbarkeit: Während früher Terabyte große Datenmengen repräsentierten, arbeiten moderne Systeme routinemäßig im Petabyte-Bereich und bewegen sich zunehmend auf Exabyte-Skalen zu. Diese Entwicklung unterstreicht die enge Verbindung zwischen Object Storage und KI-Anwendungen.
Zudem eignen sich moderne Object Storage-Systeme auch für hybride und verteilte Umgebungen, in denen Daten in unterschiedlichen Clouds oder Rechenzentren gespeichert und verarbeitet werden. Dank RESTful APIs wie S3 lässt sich der Zugriff auf Daten effizient und einfach gestalten. Diese Schnittstellen ermöglichen es, sowohl unstrukturierte Daten als auch komplexe KI-Pipelines zu verwalten. Die immensen Datenmengen, die durch moderne Anwendungen wie Video- oder Audioverarbeitung sowie Log-Dateien generiert werden, erfordern Speichertechnologien, die nicht nur Skalierbarkeit, sondern auch geringe Latenzzeiten und hohe Verfügbarkeit bieten. MinIO zeigt durch die Unterstützung von Exabyte-Skalierbarkeit die Leistungsfähigkeit moderner Systeme.
Zusätzlich hat Oracle mit der Autonomous Database eine Plattform geschaffen, die es ermöglicht, Daten aus verschiedenen Quellen wie AWS Glue oder Amazon S3 effizient zu integrieren. Mithilfe von Data Federation können Daten in Echtzeit aus relationalen Datenbanken wie SQL Server oder Snowflake angereichert werden. Diese Integration ermöglicht eine nahtlose Zusammenarbeit zwischen unterschiedlichen Systemen, ohne dass Daten repliziert werden müssen. Moderne Dateiformate wie Apache Iceberg oder Delta Sharing bieten darüber hinaus erweiterte Funktionen wie ACID-Transaktionen und optimierte Metadatenverwaltung, die speziell für Big-Data- und KI-Workloads ausgelegt sind.
In-Place Table Evolution und Partitionierung
Ein weiterer Fortschritt im Bereich moderner Object-Storage-Technologien ist die Möglichkeit der In-Place Table Evolution. Diese Technik ermöglicht es, Tabellenstrukturen wie Schema und Partitionierungen zu ändern, ohne die zugrunde liegenden Daten neu schreiben zu müssen. Technologien wie Apache Iceberg unterstützen diese Funktion, indem sie Metadaten von den eigentlichen Daten trennen. Änderungen am Schema oder an den Partitionen werden durch das Erstellen neuer Metadaten-Dateien umgesetzt. Dies gewährleistet eine konsistente Datenstruktur und erlaubt es, Workloads ohne Unterbrechung zu skalieren.
MinIO demonstriert die Effizienz dieser Methode mit Funktionen wie Copy-on-Write und Merge-on-Read. Bei Copy-on-Write werden Änderungen an Daten durch das Erstellen neuer Objekte umgesetzt, was besonders für Batch-Verarbeitung vorteilhaft ist. Merge-on-Read hingegen ermöglicht schnelle Schreibvorgänge, da Änderungen erst bei der Abfrage integriert werden, was sich für Echtzeitanwendungen eignet. Die Flexibilität dieser Ansätze erlaubt es, je nach Workload-Profil die optimale Strategie zu wählen.
Durch die Möglichkeit der Partitionierung, zum Beispiel nach Zeitstempeln oder IDs, können Abfragen gezielt optimiert werden. Moderne Query-Engines wie Dremio nutzen versteckte Partitionierungen und Split-Plan-Queries, um komplexe Abfragen effizient auszuführen. Das reduziert die Latenzzeiten und erhöht die Verarbeitungsgeschwindigkeit.
Zeitreisen mit Object Storage
Ein herausragendes Feature moderner Object-Storage-Lösungen ist die Möglichkeit des Data Time Travel. Dies ermöglicht es, Daten zu jedem beliebigen Zeitpunkt in der Vergangenheit abzufragen. Diese Funktionalität wird durch die Nutzung von Snapshot-IDs oder Zeitstempeln innerhalb von SQL-Abfragen realisiert. Snapshots stellen dabei eine Momentaufnahme der Datenbank dar, die den Zustand der Daten zu einem bestimmten Zeitpunkt wiedergibt.
Apache Iceberg unterstützt diese Funktion durch die Trennung von Katalog-, Metadaten- und Datenschicht. Dies ermöglicht es, Änderungen an den Daten präzise zu verfolgen und den Zustand der Datenbank zu einem früheren Zeitpunkt wiederherzustellen. Diese Fähigkeit ist nützlich in Szenarien wie Fehlerbehebung, A/B-Tests, Audit- und Compliance-Prüfungen sowie in Machine-Learning-Pipelines, wo Reproduzierbarkeit entscheidend ist. Die Implementierung von Data Time Travel erleichtert zudem die Einhaltung gesetzlicher Vorgaben und verbessert die Datenverwaltung insgesamt. Mit diesen Funktionen wird Object Storage zu einem unverzichtbaren Werkzeug für moderne Datenstrategien.