Shevon - stock.adobe.com

Tipp

Architektur und Skalierung in DPU-gestütztem Storage

Mit DPUs lösen sich Storage-Architekturen von der CPU-Zentralisierung. NVMe over Fabrics, KI-Workloads und disaggregierter Flash profitieren von direkter Datenverarbeitung.

von

Thomas Joos

Zuletzt aktualisiert: 07 Apr. 2026

Die Storage-Struktur im Rechenzentrum entwickelt sich schneller als die klassische Serverarchitektur. NVMe-Flash skaliert in IOPS und Durchsatz, Ethernet erreicht 100-, 200- und 400-Gbit-Klassen, gleichzeitig verbleibt ein erheblicher Teil der Steuerung im allgemeinen Serverprozessor. Genau an dieser Stelle setzt die Data Processing Unit (DPU) an. Sie verlagert Protokollverarbeitung, Datenbewegung und Sicherheitslogik aus der Host-CPU heraus und positioniert diese Funktionen direkt am Übergang zwischen Netzwerk und Speicher. Unternehmen gewinnen dadurch kurzfristig nutzbare CPU-Ressourcen, stabilere Latenzen und höhere nutzbare Storage-Bandbreite ohne Änderungen an Applikationen oder Datenmodellen. Gleichzeitig sinkt der Infrastruktur-Overhead, wodurch sich NVMe-basierte Speicherlösungen effizienter skalieren und dichter konsolidieren lassen

Der Fachbeitrag Was macht eine Data Processing Unit DPU beschreibt diese Rolle als eigenständige Verarbeitungsebene, die speziell für datengetriebene Aufgaben ausgelegt ist und klassische Engpässe im Serverknoten adressiert. Im Storage-Kontext bedeutet das eine grundlegende Neuordnung des Datenpfads. Die CPU verliert ihre Funktion als zentrale Schaltstelle für I/O-Operationen und übernimmt wieder primär Anwendungslogik.

Storage-Infrastruktur ohne CPU-Zentralisierung

Klassische Storage-Architekturen führen jeden Zugriff durch mehrere Softwareebenen. Netzwerk-Stack, Interrupt-Verarbeitung, Speicherzuordnung, Protokollübersetzung und Sicherheitsfunktionen konkurrieren um CPU-Zeit. Dieser Aufbau skaliert nur begrenzt, da zusätzliche NVMe-Queues oder höhere Netzbandbreiten nicht proportional mehr nutzbare Leistung liefern.

DPUs unterbrechen diese Kette. Sie terminieren NVMe over Fabrics (NVMe-oF) direkt auf der Karte und führen TCP- oder RDMA-Verarbeitung in spezialisierten Netzwerk-Engines der DPU aus. Der Host adressiert das entfernte Storage-System wie ein lokales NVMe-Blockgerät. Dieser Mechanismus reduziert Kontextwechsel, eliminiert Kopieroperationen und stabilisiert Latenzen unter Last.

Das ComputerWeekly-E-Handbook zu NVMe, SCM und DPU-Technologien ordnet diese Entwicklung als logische Antwort auf den wachsenden Software-Overhead ein und beschreibt DPUs als integralen Bestandteil künftiger Hochleistungs-Storage-Umgebungen.

NVMe over Fabrics als primärer Treiber

NVMe over Fabrics etabliert sich als Standard für disaggregiertes Flash-Storage. NVMe over TCP senkt die Eintrittshürde, verschiebt jedoch die Belastung in Richtung CPU. Jedes Paket, jede Queue-Operation und jede Sequenznummer verarbeitet der Serverprozessor, selbst wenn das eigentliche I/O-Ziel mehrere Meter entfernt im Rack liegt. DPUs übernehmen diesen gesamten Pfad. NVMe-Kommandos durchlaufen Hardware-Queues, TCP-Segmente entstehen und verschwinden ohne Verarbeitung im Host-Kernel-Datenpfad.

Diese Architektur zeigt ihre Wirkung vor allem bei hoher Parallelität. Steigende Queue-Tiefen führen nicht mehr zu exponentiell wachsender CPU-Last. Der Durchsatz skaliert näher an der Netzwerkkapazität. Genau dieser Effekt steht im Zentrum mehrerer technischer Präsentationen zu DPU-gestütztem Storage, in denen NVMe-JBOF-Systeme mit DPU-Controllern signifikant stabilere Latenzen und höhere nutzbare Bandbreiten erreichen als vergleichbare x86-Controller-Lösungen.

Der Unterschied zwischen DPU und SmartNIC

Eine SmartNIC ist eine programmierbare Netzwerkkarte, die bestimmte Aufgaben des Netzwerk-Stacks von der Server-CPU übernimmt. Dazu gehören beispielsweise Paketfilterung, Verschlüsselung, Virtual-Switch-Funktionen oder Storage-Offloads wie NVMe over Fabrics. Ziel ist es, CPU-Last zu reduzieren und Netzwerkfunktionen näher an die Hardware zu verlagern.

Eine Data Processing Unit (DPU) erweitert dieses Konzept deutlich. Neben spezialisierten Netzwerkbeschleunigern enthält eine DPU in der Regel mehrere ARM- oder RISC-Prozessorkerne, eigenen Arbeitsspeicher und eine isolierte Ausführungsumgebung für Infrastruktursoftware. Dadurch kann sie komplette Datenpfade für Netzwerk-, Storage- und Sicherheitsfunktionen eigenständig ausführen.

In modernen Rechenzentrumsarchitekturen übernehmen DPUs daher Aufgaben, die früher im Host-Betriebssystem liefen, etwa Storage-Transport, Verschlüsselung, Mandantentrennung oder Telemetrie. Während SmartNICs primär einzelne Offloads bereitstellen, fungieren DPUs zunehmend als eigenständige Infrastrukturprozessoren innerhalb des Servers.

DPUs im disaggregierten Storage

Disaggregierter Storage trennt Kapazität und Rechenleistung. Diese Trennung erfordert eine Vermittlungsschicht, die performant und deterministisch arbeitet. DPUs übernehmen diese Funktion. Sie verwalten NVMe-Namespaces, steuern Zugriffsrechte und verteilen Lasten über mehrere Storage-Knoten hinweg. In Petabyte-Scale-Storage-Subsystemen zeigen DPU-basierte Targets, dass sich Flash-Pools mit mehreren hundert Terabyte oder mehr ohne zentrale CPU-Flaschenhälse betreiben lassen. Hardwarebasierte NVMe-Transportlogik reduziert Tail-Latenzen und verhindert, dass einzelne Lastspitzen den gesamten Pool beeinflussen.

Storage für KI-Workloads

KI-Workloads verschärfen die Anforderungen an Storage. GPUs verarbeiten Daten in Größenordnungen, die klassische CPU-getriebene Storage-Pfade überfordern. Jede Verzögerung im Datenstrom führt zu Leerlauf auf teurer Beschleunigerhardware. DPUs verschieben den Zugriff und die Kontrolle näher an GPU und Flash. In bestimmten Architekturen leiten sie Daten direkt über PCIe weiter und umgehen den Host-Speicher. In GPU-zentrierten Plattformen kann dieser Datenpfad mit Technologien wie GPUDirect Storage kombiniert werden. Dabei greifen Beschleuniger direkt auf NVMe- oder NVMe-over-Fabrics-Storage zu, während die Data Processing Unit Netzwerktransport, Queue-Management und Sicherheitsfunktionen übernimmt. Der Host-Prozessor bleibt dabei außerhalb des kritischen I/O-Pfads und übernimmt primär Steuerungs- und Orchestrierungsaufgaben. NVMe-Zugriffe, Transport und Sicherheitsfunktionen laufen isoliert auf der DPU. Die CPU bleibt für Steuerung und Orchestrierung verfügbar.

Diese Architektur reduziert CPU-Overhead im Storage-Pfad und verhindert, dass Datenbewegung zwischen Netzwerk, Speicher und GPU zum Engpass für Trainings- oder Inferenz-Workloads wird.

Dies zeigt sich in Storage-Benchmarks für KI-Umgebungen, in denen DPU-beschleunigte Systeme deutlich höhere Accelerator-Auslastung erreichen. Der Storage-Pfad verliert seine Rolle als limitierender Faktor.

Energiebedarf und Skalierung

Jede CPU-Operation kostet Energie. DPUs reduzieren diesen Bedarf, da spezialisierte Logik deutlich effizienter arbeitet als allgemeine Kerne. Verschlüsselung, Paketklassifizierung und Queue-Management laufen mit geringerem Energieaufwand pro I/O. In größeren Rechenzentren wirkt sich dieser Effekt direkt auf das Design aus. Weniger CPU-Last senkt den Kühlbedarf, erhöht die nutzbare Rechenleistung pro Rack und verbessert die Planbarkeit von Kapazitätserweiterungen. Storage skaliert unabhängig von der CPU-Dichte der Server.

Storage-Zugriffe enthalten sensible Daten. DPUs verarbeiten Sicherheitsfunktionen direkt im Datenstrom. Verschlüsselung, Zugriffskontrolle und Telemetrie verbleiben auf der Karte. Diese Trennung schützt sowohl den Host als auch andere Mandanten vor seitlichen Effekten. In Multi-Tenant-Umgebungen erlaubt diese Architektur reproduzierbare Performance. Storage-Zugriffe eines Mandanten beeinflussen keine anderen Workloads. Das entspricht den Anforderungen moderner Cloud- und Plattformarchitekturen.

Aktuelle Plattformen und Produktansätze

Mehrere Hersteller treiben diese Entwicklung aktiv voran. NVIDIA positioniert BlueField DPUs als zentrales Element für Storage, Netzwerk und Sicherheit in KI- und Cloud-Rechenzentren.

Abbildung 1: Nvidia bietet mit der BlueField-Plattform DPUs, die auch für KI-Rechenzentren interessant sind.

Intel verfolgt mit IPUs einen vergleichbaren Ansatz zur Auslagerung von NVMe- und Netzwerkpfaden. AMD integriert mit Pensando DPUs hardwarebasierte Offloads für Enterprise-Storage-Plattformen. Ergänzend entstehen spezialisierte Lösungen aus dem Umfeld großer Flash-Hersteller, die DPUs gezielt für extreme Bandbreiten und große Kapazitäten einsetzen. Alle diese Ansätze folgen demselben Grundprinzip. Storage verlässt die CPU-Zentralisierung und rückt näher an die Datenquelle.

Fazit für Storage-Architekten

DPUs verändern Storage grundlegend. Sie verschieben die Engpassanalyse von Medienleistung hin zur Architekturentscheidung. NVMe-Flash entfaltet sein Potenzial erst dann vollständig, wenn Transport, Sicherheit und Virtualisierung nicht mehr auf der CPU lasten. DPUs stellen damit keine optionale Erweiterung dar, sondern eine strukturelle Komponente moderner Storage-Architekturen.