DrHitch - Fotolia

Cloud Storage für KI: Vor- und Nachteile und Optionen

Wir vergleichen Cloud- und On-Premises-Lösungen für KI-Workloads, warum die Cloud die bessere Wahl sein kann und welche Technologien das KI-Tempo in der Cloud erhöhen.

IT-Architekten, die mit der Konzeption von Speichersystemen für künstliche Intelligenz (KI) beauftragt sind, müssen Kapazität, Leistung und Kosten in Einklang bringen.

KI-Systeme, insbesondere solche auf Basis großer Sprachmodelle (Large Language Models, LLMs), verarbeiten enorme Datenmengen. Tatsächlich funktionieren LLMs oder generative KI-Modelle (GenAI) oft besser, je mehr Daten ihnen zur Verfügung stehen. Besonders die Trainingsphase von KI ist äußerst datenintensiv.

Die Inferenzphase von KI hingegen erfordert hohe Leistung, um zu vermeiden, dass KI-Systeme träge wirken oder gar nicht funktionieren. Hier sind Durchsatz und niedrige Latenz entscheidend.

Eine zentrale Frage ist daher, inwieweit sich eine Mischung aus On-Premises- und Cloud-Speicher nutzen lässt. On-Premises-Speicher bieten höhere Leistung und mehr Sicherheit. Cloud-Speicher ermöglichen dagegen Skalierbarkeit, geringere Kosten und oft eine bessere Integration mit Cloud-basierten KI-Modellen und Datenquellen.

In diesem Artikel betrachten wir die Vor- und Nachteile beider Ansätze und wie sie sich für KI-Speicher optimal nutzen lassen.

KI-Speicher: On-Premises vs. Cloud

Unternehmen setzen für maximale Geschwindigkeit, Leistung und Sicherheit typischerweise auf On-Premises-Speicher – das gilt auch für KI-Workloads. Lokaler Speicher lässt sich zudem besser auf die Anforderungen von KI-Modellen abstimmen und ist weniger anfällig für Netzwerk-Engpässe.

Ein weiterer Vorteil ist die Nähe der KI-Modelle zu den Quelldaten. In Unternehmensanwendungen handelt es sich dabei häufig um relationale Datenbanken auf Blockspeicher.

Systemarchitekten müssen daher den Einfluss von KI auf die Performance des führenden Systems berücksichtigen. Das Unternehmen möchte nicht, dass zentrale Anwendungen wie ERP oder CRM verlangsamt werden, weil sie gleichzeitig Daten an ein KI-System liefern. Auch aus Gründen der Sicherheit, des Datenschutzes und der Compliance ist es oft sinnvoll, Kerndaten vor Ort zu halten und nicht in die Cloud zu verschieben.

Cloud-Speicher bieten dennoch Vorteile für KI-Projekte: Sie sind einfach skalierbar, und Kunden zahlen nur für die tatsächlich genutzte Kapazität. Für manche KI-Anwendungen liegen die Quelldaten ohnehin bereits in der Cloud, etwa in einem Data Lake oder einer SaaS-Anwendung.

Cloud Storage basiert meist auf Objektspeicher, der sich besonders für unstrukturierte Daten eignet – also genau die Daten, die LLMs überwiegend konsumieren.

Gleichzeitig erleichtert das Wachstum von On-Premises-Objektspeicher-Lösungen Unternehmen die Einführung einer einheitlichen Speicherarchitektur – bis hin zu einem globalen Namespace für On-Premises- und Cloud-Infrastrukturen, inklusive künstlicher Intelligenz. Das ist besonders relevant für Unternehmen, die Workloads zwischen lokalem Rechenzentrum und Cloud verschieben oder hybride Systeme betreiben.

KI-Speicher und Cloud-Optionen

Für Proof of Concepts (PoCs) im KI-Bereich ist Cloud-Speicher oft die erste Wahl, weil keine Investitionen in Hardware nötig sind und die Ressourcen nach Projektende wieder abgeschaltet werden können.

Manche Unternehmen konzipieren KI-Systeme so, dass sie bei Bedarf aus dem Rechenzentrum in die Cloud burst-en, also für Lastspitzen auf Public-Cloud-Ressourcen zurückgreifen. Das ist vor allem für KI-Projekte mit kurzen, intensiven Nutzungsspitzen sinnvoll, etwa bei saisonalen Geschäftszyklen.

Mit dem Aufkommen generativer KI auf Basis großer Sprachmodelle hat sich das Gleichgewicht weiter in Richtung Cloud verschoben – vor allem aufgrund der Datenmengen.

Cloud-Anbieter bieten mittlerweile eine breite Palette an speziell auf KI-Workloads zugeschnittenen Speicheroptionen. Dazu gehören Lösungen für die verschiedenen Phasen eines KI-Projekts: Datenvorbereitung, Training, Bereitstellung und Archivierung.

Wie Google-Ingenieure betonen, hat jede Phase im ML-Lebenszyklus unterschiedliche Speicheranforderungen. Beispielsweise steht beim Hochladen des Trainingsdatensatzes die Kapazität im Vordergrund, beim Training und bei großen Datensätzen der Durchsatz. Auch die Phasen Training, Feinabstimmung, Bereitstellung und Archivierung unterscheiden sich in ihren Anforderungen.

Diese Prinzipien gelten gleichermaßen für Microsoft Azure und Amazon Web Services. Alle drei Hyperscaler sowie Anbieter wie IBM und Oracle bieten Cloud Storage, das für die Massenspeicherung von KI-Daten geeignet ist. Meist werden unstrukturierte Daten – darunter Quellmaterial und Trainingsdaten – in Objektspeichern wie AWS S3, Azure Blob Storage oder Google Cloud Storage abgelegt. Drittanbieter wie NetApp ONTAP verbessern zudem die Datenportabilität zwischen Cloud und On-Premises.

Für die Produktions- beziehungsweise Inferenzphase von KI sind die Anforderungen oft noch komplexer. IT-Architekten können NVMe- und SSD-Speicher mit unterschiedlichen Leistungsklassen für kritische Teile des KI-Workflows spezifizieren. Klassische Festplatten werden weiterhin für Aufgaben wie Datenaufnahme, -vorbereitung oder Archivierung genutzt.

Diese Speicherlösungen sind anwendungsneutral: IT-Architekten können Leistungsparameter und Budget für KI wie für andere Workloads festlegen. Gleichzeitig entsteht eine neue Generation von Cloud-Speicher, die speziell für KI entwickelt wurde.

Fortschrittlicher Cloud-Speicher für KI

Die speziellen Anforderungen von KI haben dazu geführt, dass Speicheranbieter dedizierte Infrastrukturen entwickeln, um Engpässe im KI-Workflow zu vermeiden – sowohl On-Premises als auch in der Cloud. Zwei Ansätze sind dabei zentral: Parallelisierung und direkter GPU-Speicherzugriff.

Parallelisierung ermöglicht es Speichersystemen, die gleichzeitigen Datenanfragen von KI- und ML-Workloads effizient zu bedienen. So wird das Training und die Inferenz von Modellen beschleunigt, da mehrere Datenströme parallel verarbeitet werden können.

Ein Beispiel ist Googles Parallelstore, ein verwalteter, paralleler Dateispeicherdienst für rechenintensive KI-Anwendungen.

Direkter GPU-Memory-Zugriff (zum Beispiel über Nvidia GPUDirect) beseitigt Engpässe zwischen Speicher-Cache und GPUs. GPUs sind teuer und oft knapp, daher muss der Speicher mindestens 10 GB/s Durchsatz liefern, um ein Verhungern (Nichtauslasten) der GPU zu vermeiden. Mit Protokollen wie GPUDirect können GPUs direkt auf NVMe-Memory zugreifen, ähnlich wie RDMA den direkten Zugriff zwischen Systemen ermöglicht.

Lokale Cache-Schichten zwischen GPU und gemeinsam genutztem Speicher können Blockspeicher auf NVMe-SSDs nutzen, um jeder GPU eine Bandbreite von 60 GB/s oder mehr bereitzustellen. Cloud-Anbieter planen daher eine neue Generation von SSDs, optimiert für Direct GPU Support (DGS), wahrscheinlich basierend auf SLC-NAND.

Inferenz-Workloads benötigen eine Kombination aus klassischem Unternehmensspeicher und KI-optimiertem DGS-Speicher Die GPU-zentrierten Workloads erfordern kleine I/O-Zugriffe und extrem niedrige Latenz.

Daher wird der Markt künftig mehr KI-optimierte Speichersysteme sehen, darunter Lösungen mit Nvidia DGX BasePod- und SuperPod-Zertifizierung sowie KI-Integration.

Zu den verfügbaren Storage-Optionen zählen Nutanix Enterprise AI, Pure’s Evergreen One for AI, Dell PowerScale, Vast Data Platform, Weka (Cloud-Hybrid-NAS), sowie Angebote von HPE, Hitachi Vantara, IBM und NetApp.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)