Shevon - stock.adobe.com

Warum KI den Storage-Bedarf massiv in die Höhe treibt

Mit dem Wachstum von KI steigen die Anforderungen an Storage rasant. Unternehmen müssen ihre Speicherarchitektur neu denken, um GPU-Leistung und Datenzugriff zu sichern.

Künstliche Intelligenz (KI) und maschinelles Lernen (ML) werden in nahezu allen Branchen rasch eingeführt. Dennoch kann KI nicht ohne eine zugrunde liegende Speicherinfrastruktur arbeiten, die gut auf die Anforderungen einer KI-Workload abgestimmt ist. Es geht längst nicht mehr nur darum, wie viel Speicherkapazität ein Unternehmen besitzt, sondern auch darum, wie schnell Daten abgerufen und verarbeitet werden können.

Historisch war Enterprise Storage vor allem auf die Datenzugriffsmuster transaktionaler Datenbanken optimiert. Dieser Ansatz ist für KI-Workloads jedoch nicht geeignet. KI-Workloads verarbeiten typischerweise enorme Datenmengen, von denen ein großer Teil unstrukturiert ist. Anders als bei einer Datenbank sind die Zugriffsmuster dabei sehr unterschiedlich und überwiegend unvorhersehbar. Leider können Engpässe beim Datenzugriff erhebliche negative Auswirkungen auf KI-Workloads haben und damit letztlich auch ihren geschäftlichen Nutzen mindern.

Warum Storage für KI wichtig ist

Einer der am weitesten verbreiteten Mythen rund um KI ist, dass GPU-Performance über allem steht. In der Realität können GPUs jedoch untätig bleiben, während sie auf Daten warten. Die Speicher-Performance ist letztlich genauso wichtig wie die GPU-Leistung. Die schnellste GPU der Welt nützt wenig, wenn das zugrunde liegende Storage nicht mithalten kann.

Wie Storage-Anbieter auf KI-Anforderungen reagieren

Die mit KI verbundenen Storage-Herausforderungen haben dazu geführt, dass Storage-Anbieter verschiedene Anpassungen vorgenommen haben. Die bekannteste davon ist der Wechsel von SATA- oder SAS-SSDs zu NVMe-basiertem Flash-Storage. Anbieter verfolgen damit das Ziel, Verzögerungen im Mikrosekundenbereich zu eliminieren, die früher kaum ins Gewicht fielen, heute aber zu verschwendeten GPU-Zyklen und höheren Kosten führen.

Ein weiterer Ansatz der Hersteller ist der verstärkte Einsatz von NVMe over Fabrics (NVMe-oF). Das ist wichtig, weil KI-Cluster aus mehreren Knoten bestehen, die jeweils Zugriff auf hoch-performanten Storage benötigen. NVMe-oF hilft, die Latenz traditioneller Netzwerke zu verringern und Storage-Netzwerke dadurch näher an die Performance lokaler Speicher heranzuführen.

Storage-Anbieter setzen zudem zunehmend auf parallele Dateisysteme und Scale-out-NAS. Dadurch lässt sich nicht nur die Kapazität, sondern auch die Performance skalieren. Die Knoten innerhalb eines KI-Clusters greifen in der Regel auf denselben Datensatz zu. Das Problem dabei ist, dass mehrere Knoten einen einzelnen Storage-Controller mit I/O-Anfragen überlasten können. Parallele Dateisysteme lösen dieses Problem, indem sie zusätzliche Storage-Knoten mit jeweils eigenen Controllern bereitstellen. Statt dass mehrere Storage-Knoten auf ein einzelnes Storage-Array zugreifen, verteilen diese ihre Speicheranfragen auf mehrere Storage-Systeme. Dadurch wird die Last auf die Storage-Controller reduziert, was wiederum eine schnellere Bearbeitung von I/O-Anfragen ermöglicht.

Storage-Preise und Engpässe für Unternehmen und Verbraucher

Unternehmen, die KI-Workloads betreiben, müssen in hoch-performanten Storage investieren, sonst riskieren sie eine unzureichende Auslastung ihrer GPUs. Bei der Budgetplanung für Storage sollten IT-Verantwortliche berücksichtigen, dass neben der hohen Zugriffsgeschwindigkeit auch die Kapazität immer wichtiger wird. Moderne KI-Modelle benötigen größere Trainingsdatensätze und längere Aufbewahrungszeiten für Daten.

Angesichts der Speicheranforderungen beim Training und Betrieb von KI-Workloads entscheiden sich viele Unternehmen für speziell ausgelegte Cloud-Storage-Angebote. Diese Hochgeschwindigkeitsoptionen sind ideal, erfordern jedoch eine sorgfältige Planung, um beim Verschieben von Datensätzen zwischen Clouds keine unnötigen Daten-Egress-Gebühren zu verursachen.

Enterprise-KI-Workloads wirken sich auch auf die Preise für Verbraucher aus. Da Hardwarehersteller bemüht sind, die Nachfrage von Unternehmenskunden zu bedienen, die KI-Workloads betreiben wollen, produzieren sie weniger Komponenten für den Consumer-Markt. Dieser Trend treibt die Preise in der Unterhaltungselektronik insgesamt nach oben. Die stärksten Preissteigerungen betreffen Arbeitsspeicher, aber nahezu alle Consumer-Elektronikprodukte sind in gewissem Maße betroffen, da die meisten elektronischen Geräte Speicherchips enthalten.

Ausblick

Für die Zukunft scheint es wahrscheinlich, dass CIOs Storage zunehmend als Wettbewerbsvorteil betrachten und IOPS pro Dollar als KPI einführen werden.

Angesichts der Notwendigkeit, GPUs in Echtzeit mit Daten zu versorgen, ist ebenfalls zu erwarten, dass Rechenleistung näher an die Daten rückt und Edge-KI-Anwendungen das Wachstum von Edge Storage vorantreiben werden.

Interessanterweise treiben KI-Workloads zwar die Nachfrage nach Storage an, gleichzeitig wird KI aber auch dazu beitragen, einige der Probleme zu lösen, die sie selbst mitverursacht hat. KI-gestützte Storage-Optimierung ermöglicht prädiktives Caching, automatisiertes Tiering und Fehlerprognosen. Diese Art des intelligenten Storage-Managements hilft KI-Workloads dabei, Speicher effizienter zu nutzen, und dämpft damit zumindest teilweise die Storage-Kosten.

Das Wichtigste, was Organisationen dabei beachten sollten, ist, dass das bloße Hinzufügen von Flash-Storage allein nicht ausreicht, um alle Storage-Engpässe zu beseitigen. Unternehmen müssen ihre Storage-Pipelines neu denken und nicht nur ihre Hardware aufrüsten.

Das Wichtigste in Kürze auf einen Blick: Storage für KI-Umgebungen

  • KI braucht schnellen Storage, nicht nur viel Kapazität.
  • GPU-Leistung bleibt ungenutzt, wenn Daten zu langsam bereitstehen.
  • NVMe, NVMe-oF und Scale-out-Architekturen werden wichtiger.
  • Cloud-Storage ist möglich, aber Kosten und Datenbewegungen müssen beachtet werden.
  • Nur Flash aufzurüsten löst das Problem nicht vollständig.

Dieser Artikel ist im Original in englischer Sprache auf Search Storage erschienen.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)