sabida - stock.adobe.com

Speicher-Innovationen helfen der KI-Inferenz voran

Innovationen im Speicherbereich halten Schritt mit dem Wandel der KI zur Inferenz. Wir betrachten, wie einzelne Speicherverfahren in der KI-Evolution eingesetzt werden.

Künstliche Intelligenz (KI) bewegt sich hin zu einer Phase, in der die Lösungen nicht nur interpretieren und aus großen Datenmengen eine Antwort für so etwas wie Grok oder ChatGPT zusammensuchen, sondern in der die KI-Lösungen Schlussfolgerungen ziehen können. Maschinen, die Schlussfolgerungen ziehen können werden Inferenzmaschinen genannt, weshalb in diesem Beitrag der Begriff Inferenz (englisch: Inference) genutzt wird, wenn es um die nächste Phase der KI-Evolution geht.

So rasch, wie sich die IT-Infrastruktur für KI-Anwendungen entwickelt, so rasch ändern sich die Herausforderungen an die Technik. Eine Innovation jagt die andere. Da sich der Fokus der KI zunehmend auf die Phase der Bewertung, der Schlussfolgerung – Inferenz – verlagert, entstehen neue Aufgaben für diejenigen, die KI-Workloads in großem Umfang ausführen. Dazu gehört eine faszinierende Innovationswelle im Speicher- und Datenökosystem. Das werden Unternehmen spüren, wenn sie sich in Richtung KI-Inferenz bewegen.

Es ist allen bewußt, dass die zugrunde liegende Dateninfrastruktur eine entscheidende Rolle spielt, wenn KI im Unternehmen in großem Maßstab eingesetzt wird. Tatsächlich hat eine Studie der Enterprise Strategy Group (jetzt Omdia), ergeben, dass Schwierigkeiten im Datenmanagement eine der großen Herausforderungen beim Bearbeiten von KI-Workloads sind. Da sich der Schwerpunkt der KI nun In Richtung Schlussfolgerungen und agentenbasierte Inferenz verlagert, darf damit gerechnet werden, dass die Herausforderungen an Bedeutung gewinnen.

Kontextfenster: Der Datenengpass für die Inferenz

In den Szenarien für KI-Inferenz liegt ein Fokus auf den spezifischen Herausforderungen, die mit wachsenden Kontextfenstern im LLM (Large Language Model) verbunden sind. Im Allgemeinen beziehen sich diese Fenster auf die Menge an Tokens, die ein KI-Modell bei der Generierung einer Antwort oder Vorhersage gleichzeitig berücksichtigen kann.

Kontextfenster werden sowohl in Bezug auf ihren Umfang als auch auf ihre Komplexität immer größer, da die Nutzer immer versierter im Umgang mit KI-Inferenz-Werkzeugen werden und ihre Erwartungen steigen. Die Nutzer stellen nicht nur immer komplexere Fragen, sondern tun dies auch über längere Zeiträume hinweg.

Denken Sie daran, wie Sie vielleicht mit einem generativen KI-Tool interagiert haben und dann einige Minuten oder sogar Stunden später mit einer Folgefrage zurückgekommen sind. Haben Sie erwartet, dass sich das Modell daran erinnert, wo Sie aufgehört haben? Darüber hinaus können Prompts mittlerweile auch andere Datentypen als Text verarbeiten und unterstützen zunehmend Inhalte wie PDFs, Code und sogar Videos.

Dies führt zu einer explosionsartigen Zunahme der Anzahl der für jeden Prompt generierten Tokens. Als Beispiel unterstützte Llama 1 ein Kontextfenster von 2.048 Tokens, als Meta es 2023 veröffentlichte. Im Gegensatz dazu veröffentlichte Meta Anfang dieses Jahres Llama 4, das bis zu 10 Millionen Token unterstützt – eine Steigerung um das 5.000-fache.

Das Problem der 10 Millionen Token ist vielleicht eher eine theoretische Grenze als ein tatsächliches Problem, das heute spürbar ist. Es besteht weitgehende Einigkeit darüber, dass unabhängig von der Größe der Umgebung eine Welle von Tokens auf uns zukommt. Dieser Tsunami wird die heutige Infrastruktur wahrscheinlich überfordern, sodass Alternativen erforderlich sind.

Der KV-Cache

Der Key-Value-Cache (KV-Cache) ist der Ort, an dem das Kontextfenster erstellt und gespeichert wird, und somit ein kritischer – und sehr rechenintensiver – Schritt im Denkprozess großer Sprachmodelle (LLMs). Hier wird das kontextuelle Verständnis der Eingabeanforderung aufgebaut; man kann sich das als das Kurzzeitgedächtnis des LLM vorstellen.

Die Herausforderungen, die mit der Speicherung von Hunderttausenden oder sogar Millionen von Tokens verbunden sind, führen dazu, dass der KV-Cache in anspruchsvolleren oder komplexeren Umgebungen schnell voll ist. In einem solchen Szenario müssen ältere Daten gelöscht werden, um Platz für neue Anfragen zu schaffen.

Um den Kontext wiederherzustellen, müssen ältere Eingaben dann wiederholt neu berechnet werden. Hier kommt der GPU-Aufschlag ins Spiel. Anstatt teure GPU-Zyklen für die Gewinnung neuer Erkenntnisse zu nutzen, müssen sie stattdessen Zeit für die Neuberechnung bereits erstellter Daten aufwenden. Das ist eine ineffiziente Nutzung einer teuren Ressource.

Der KV-Cache wurde ursprünglich für die Bereitstellung von High-Bandwidth-Memory (HBM) entwickelt, das an den lokalen GPU-Server gebunden ist. Tools wie vLLM haben sich hier als beliebte und effiziente Methoden zur Datenverwaltung etabliert. HBM ist jedoch die teuerste Form von Speicher, und mit steigender Token-Anzahl wächst auch der Bedarf an einem größeren KV-Cache. Dementsprechend wird es notwendig, zusätzliche Speicherressourcen zu nutzen. Der nächste logische Schritt in der Speicherhierarchie ist der CPU-Speicher – DRAM. Hier ermöglichen Frameworks wie LMCache das Auslagern des KV-Caches in den lokalen CPU-Speicher.

Da jedoch Kontextfenster und die damit verbundenen Token exponentiell wachsen, reicht dies nicht unbedingt aus. Um die Leistungsanforderungen fortschrittlicher KI-Inferenz in Zukunft kostengünstig zu erfüllen, benötigen GPUs wahrscheinlich einen KV-Cache, der auf einen größeren Pool an Hochleistungsspeichern wie NVMe zurückgreift. Dies würde dazu beitragen, Kontextfenster drastisch zu erweitern, sodass GPUs mehr Zeit für die Bearbeitung neuer Eingaben aufwenden können und gleichzeitig die Gesamteffizienz gesteigert wird. Die Verwaltung von KV-Cache-Daten auf diese Weise bringt möglicherweise auch andere Vorteile mit sich, da die Daten auf einer globalen, intelligenteren Basis verwaltet werden, die einer Vielzahl von Zwecken dienen kann.

Anbieter bereiten sich auf die Token-Flut vor

Angesichts der Herausforderungen ist es nicht verwunderlich, dass sich mehrere Branchenakteure intensiv mit dieser Herausforderung befassen. Insgesamt hat sich der Speicherbereich für KI in den letzten Jahren stark weiterentwickelt, da die Anbieter daran gearbeitet haben, eine Reihe von Leistungsherausforderungen im Zusammenhang mit KI zu bewältigen. Es sind Spezialisten für KI-spezifische Speicherlösungen entstanden, die jeweils ihre eigenen technischen Ansätze verfolgen, die auf fortschrittlichen Datenmanagement-Softwarearchitekturen basieren und die Fortschritte bei schnellen Remote-Direct-Memory-Access-Technologien und -Protokollen nutzen (RDMA).

Darüber hinaus beobachten wir derzeit einen Anstieg der Aktivitäten im Bereich der fortgeschrittenen Inferenz, einschließlich KV-Cache-Management.

So hat Weka beispielsweise Anfang dieses Jahres eine Funktion namens Augmented Memory Grid (AMG) angekündigt, die in Kürze allgemein verfügbar sein soll. Diese Funktion nutzt die parallele Dateisystemsoftware von Weka, um einen externen Pool von gemeinsam genutztem NVMe-Speicher zu erstellen, der direkt an GPU-Server angeschlossen ist und als hochleistungsfähiges Token-Warehouse fungiert. Laut Weka bietet diese Funktion eine speicherähnliche Leistung, jedoch zu NVMe-Kosten.

AMG kann auch in Verbindung mit der kürzlich von Weka angekündigten NeuralMesh Axon-Software ausgeführt werden, die ihren Software-Stack vollständig auf dem GPU-Server implementiert, um den ungenutzten NVMe-Flash-Speicher innerhalb des Servers selbst zu nutzen. Tatsächlich erklärt das Unternehmen, dass Kunden einen weitaus größeren Nutzen erfahren werden, wenn sie beide Aspekte zusammen ausführen.

Obwohl sich die technische Umsetzung unterscheidet, bietet die ebenfalls Anfang 2025 angekündigte Funktion Undivided Attention (VUA) von Vast Data ähnliche Fähigkeiten. Sie nutzt die Disaggregated Shared Everything-Architektur (DASE) von Vast und schafft dabei einen unendlichen Memory-Platz für Kontextdaten. Wie AMG von Weka ist auch VUA für vLLM-Frameworks optimiert.

DDN schließt sich mit dem neuen Infinia-Objektspeicher an. Er verfügt über einen direkt integrierten KV-Cache. DDN hat kürzlich ein Testszenario vorgestellt, das laut eigenen Angaben die branchenweit schnellste Time to First Token für anspruchsvolle Reasoning-Workloads bietet.

Erwähnenswert ist, dass auch Nvidia sich auf die Bewältigung dieser Herausforderungen konzentriert. Nvidias Lösung, die Anfang 2025 vorgestellt wurde, ist Dynamo, ein verteiltes Framework mit geringer Latenz für die Skalierung von Reasoning-KI-Modellen.

Eine der zahlreichen Innovationen innerhalb von Dynamo, das bestehende Frameworks wie vLLM unterstützt, ist der KV Cache Manager. Diese Funktion ermöglicht die Auslagerung älterer oder weniger häufig verwendeter KV-Cache-Blöcke in kostengünstigere Speichermedien wie CPU-Speicher, lokale Speicher oder externe Netzwerkspeicher. Nvidia zufolge kann dieser Ansatz die Speicherung von Petabytes an KV-Cache-Daten zu einem Bruchteil der Kosten unterstützen, die für die Speicherung im GPU-Speicher anfallen würden.

Wie sich dies genau auf die verschiedenen Angebote von Speicheranbietern auswirken wird, muss noch geklärt werden. In gewisser Weise bietet Nvidia hier einen alternativen Ansatz. Vast, Weka und andere gaben jedoch bekannt, dass sie mit Nvidia zusammenarbeiten, um eine Integration zwischen ihren Funktionen und Dynamo anzubieten.

Die Nvidia Inference Transfer Library (NIXL), eine Punkt-zu-Punkt-Kommunikationsbibliothek mit hohem Durchsatz und geringer Latenz, bietet eine konsistente API für die Datenübertragung, um Daten schnell und synchron über verschiedene Memory- und Speicherebenen hinweg zu übertragen. NIXL wurde speziell für die Übertragung von Inferenzdaten optimiert und unterstützt verschiedene Speichertypen, lokale SSDs und vor allem Netzwerkspeicher von Nvidia-Speicherpartnern.

Speicheranbieter arbeiten bereits an der Integration mit NIXL. Weka hat ein spezielles Plug-in für NIXL als Open Source veröffentlicht. Unterdessen hat Vast kürzlich Details zu einem Testszenario veröffentlicht, bei dem das Nvidia NIXL GPUDirect Storage (GDS)-Plug-in in das Vast AI OS integriert wurde. Laut Vast wurde bei dem Test eine einzelne H100-GPU mit 35 GB/s unter Verwendung von GDS betrieben, ohne den verfügbaren Durchsatz des Vast AI OS auszuschöpfen. Mit anderen Worten: Speicher würde kein Engpass sein, wenn LLM-KV-Caches auf die Vast-Plattform ausgelagert werden.

Ein Blick nach vorn

Es ist verlockend, solche Herausforderungen im Zusammenhang mit Kontextfenstern als etwas zu betrachten, das nur eine kleine Anzahl von großen KI-Entwicklern, Hyperscalern, Neo-Clouds/KI-Dienstleistern oder großen Forschungseinrichtungen betreffen sollte.Eine solche Annahme kann jedoch gefährlich sein. Zwar ist es richtig, dass die Verarbeitung von Millionen von Tokens über Tausende von GPUs noch immer nur wenigen vorbehalten ist, doch beginnen immer mehr Mainstream-Unternehmen, sich mit fortschrittlicher Argumentation und agentenbasierter KI zu beschäftigen. Solche Implementierungen umfassen zwar nur einige Dutzend GPUs, doch die Anforderungen sind wahrscheinlich ebenso hoch. Daher wird die Notwendigkeit, große Mengen an Tokens effektiv zu verwalten, angesichts der begrenzten Ressourcen ebenso kritisch sein, wenn nicht sogar noch kritischer.Daher sollten alle Infrastrukturverantwortlichen, die über die Inferenzreise ihres Unternehmens nachdenken, die Entwicklungen in diesem Bereich genau im Auge behalten. Die Auswahlmöglichkeiten für Kunden nehmen weiter zu und werden in den kommenden Monaten wahrscheinlich noch größer werden. Mainstream-Speicheranbieter – darunter Dell mit Project Lightning, NetApp und Pure Storage mit FlashBlade//EXA – verbessern ihre KI-Produkte, und KI-Speicherspezialisten wie Hammerspace richten ihr Augenmerk zunehmend auf den breiteren Unternehmensmarkt.Letztendlich sind die hier beschriebenen inferenzspezifischen Probleme nur ein Aspekt einer viel breiteren Palette von Herausforderungen im Zusammenhang mit Memory, Speicherkapazität und Daten, denen Unternehmen bei der Skalierung ihrer KI-Workloads gegenüberstehen.Die eigentliche Herausforderung für Infrastrukturverantwortliche besteht darin, eine KI-Umgebung aufzubauen, die diese Probleme neben den unzähligen weiteren Herausforderungen, denen sie gegenüberstehen, elegant bewältigen kann. In dieser Hinsicht sind die laufenden Innovationen aus dem gesamten Lieferanten-Ökosystem ein sehr gutes Zeichen für die Zukunft.

Über den Autor:
Simon Robinson ist Principal Analyst für Infrastruktur bei der Enterprise Strategy Group, die jetzt zu Omdia gehört. Die Enterprise Strategy Group ist Teil von Omdia. Ihre Analysten unterhalten Geschäftsbeziehungen zu Technologieanbietern.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Storage Management