
Dario Berardi - stock.adobe.com
Netzwerke für KI-Workloads fit machen
Herkömmliche und Hochleistungsnetzwerke sind für KI-Workloads nicht ausreichend. Um deren enorme Größe zu bewältigen, müssen Unternehmen spezielle Netzwerke planen und realisieren.
Der rasante Aufstieg der KI macht leistungsstarke und effiziente Netzwerke unerlässlich. Diese müssen speziell für die Unterstützung von KI-Workloads und die zu deren Training verwendeten Daten ausgelegt werden. Entscheidend ist eine optimierte Ost-West-Konnektivität in großen GPU-Clustern, in denen viele Knoten parallel Daten austauschen.
Data Center, die für KI-Workloads entwickelt wurden, haben andere Anforderungen als ihre konventionellen Gegenstücke und sogar solche für High-Performance-Computing (HPC). KI-Workloads verlassen sich nicht ausschließlich auf Legacy-Serverkomponenten. Stattdessen sollte die Rechen- und Storage-Hardware GPUs, Data Processing Units (DPU) und smartNICs integrieren, um KI-Training und -Workloads zu beschleunigen.
Einmal integriert, müssen Netzwerke diese Infrastrukturkomponenten zusammenfügen und Arbeitslasten mit unterschiedlichen Parametern und Anforderungen bewältigen. Daher müssen Data-Center- und Cloud-Netzwerke, die für KI konzipiert sind, eine Reihe einzigartiger Bedingungen erfüllen. Neben Performance zählt die Vorhersagbarkeit: Latenz, Jitter und Paketverluste wirken sich direkt auf Trainingszeiten und Skaleneffekte aus.
Um KI-Datenströme zu unterstützen, müssen Netzwerktechniker kritische KI-Workload-Anforderungen berücksichtigen, zum Beispiel einen hohen Durchsatz und dichte Port-Konnektivität. Um diese Anforderungen zu erfüllen, müssen sie Data-Center-Netzwerke mit der richtigen Konnektivität, den richtigen Protokollen, der richtigen Architektur und den richtigen Verwaltungstools einrichten.
Netzwerkanforderungen für KI-Workloads
KI-Datenströme unterscheiden sich von Client-Server-, HCI- (hyperkonvergente Infrastruktur) und anderen HPC-Architekturen. Die drei wichtigsten Anforderungen an KI-Netzwerke sind:
- Geringe Latenz, hoher Netzwerkdurchsatz: Die Hälfte der Zeit, die für die Verarbeitung von KI-Workloads aufgewendet wird, findet im Netzwerk statt. HPC-Netzwerkarchitekturen sind für die Verarbeitung Tausender kleiner, aber gleichzeitiger Workloads konzipiert. Im Gegensatz dazu ist die Zahl von KI-Datenströmen zwar gering, aber sie sind von enormer Größe. In der Praxis kann der Kommunikationsanteil je nach Modellgröße, Parallelisierungsgrad und Clusterdesign die reine Rechenzeit erreichen oder sogar übersteigen.
- Horizontal skalierbare Port-Dichte: Für KI-Trainingsdaten wird eine große Anzahl von mit dem Netzwerk verbundenen GPUs verwendet, die Daten parallel verarbeiten. Daher kann die Anzahl der Netzwerkverbindungen das acht- bis 16-fache der normalen Anzahl in einem Data Center betragen. Die schnelle Übertragung zwischen den GPUs und dem Speicher erfordert eine nicht blockierende Clos/Fat-Tree-Fabric (Spine Leaf) für optimale Ost-West-Performance. In der Praxis setzt man hierfür auf eine nicht blockierende Clos-/Fat-Tree-Fabric (Leaf Spine) mit ECMP über viele gleichwertige Pfade; sie ist kein vollständiges Mesh zwischen allen Switches, ermöglicht aber lineare Skalierung von Bandbreite und Redundanz.
- Vermeiden von menschlichen Fehlern: KI-Workloads sind in der Regel sehr umfangreich. Bis zu 50 Prozent der Zeit, die für die Verarbeitung von KI-Trainingsdaten aufgewendet wird, entfällt auf den Transport im Netzwerk. GPUs müssen die gesamte Verarbeitung von Trainingsdaten abschließen, bevor KI-Anwendungen die daraus resultierenden Informationen nutzen können. Jede Unterbrechung oder Verlangsamung, und sei sie noch so gering, während dieses Prozesses kann zu erheblichen Verzögerungen führen. Der größte Schuldige für Ausfälle oder Beeinträchtigungen des Netzwerks ist die manuelle Konfiguration. KI-Infrastrukturen müssen belastbar und frei von menschlichen Fehlern sein. Automatisierte Validierung, standardisierte Change-Pipelines und „Guardrails“ gegen Fehlkonfigurationen sind deshalb Pflicht.
Netzwerkdesign für KI
Um die oben genannten Anforderungen für eine optimale Handhabung von KI-Workloads zu erfüllen, werden moderne Data Center-Netzwerke zunehmend mit spezialisiertem Netzwerktransport, Clos-Architekturen (ein nicht blockierendes, mehrstufiges Switching-Netzwerk) und intelligenter Automatisierung aufgebaut. Ergänzend kommen Telemetriefunktionen und Mechanismen zur Job-Isolation hinzu, um geteilte Fabrics deterministischer zu betreiben.
Spezialisierter Netzwerktransport und Beschleuniger
Spezialisierte physische und logische Transportmechanismen minimieren die Netzwerklatenz bei der Verarbeitung von KI-Workloads. InfiniBand bietet für KI-Workloads Verbesserungen bei Geschwindigkeit, Latenz und Zuverlässigkeit gegenüber Standard-Ethernet. Der Nachteil ist jedoch, dass InfiniBand ein eigenes Protokoll mit spezieller Verkabelung ist. Diese beiden Faktoren erhöhen die Kosten für die Bereitstellung im Vergleich zu Ethernet. Obwohl moderne Optik-Formfaktoren (QSFP/OSFP) ähnlich aussehen, sind Transceiver und Kabel protokollspezifisch codiert und nicht zwischen InfiniBand und Ethernet austauschbar. Zudem bietet InfiniBand Funktionen wie In-Network Computing (zum Beispiel SHARP) zur Beschleunigung kollektiver Operationen.
Im Data Center gibt es bereits eine Alternative zu InfiniBand: Standard-Ethernet-Verkabelung und -Switching-Hardware. Ethernet kann KI-Workloads mit einem optimierten Netzwerkprotokoll transportieren, zum Beispiel RDMA over Converged Ethernet, allgemein RoCE genannt. Dieses Ethernet-basierte Protokoll bietet eine niedrige Latenz und einen hohen Datendurchsatz. Das sind exakt die Anforderungen für KI-Workflows.
Accelerator und smartNICs unterstützen KI-Workloads auch auf der Datenverarbeitungsebene. DPUs sind programmierbare Prozessoren, die Daten übertragen und viele Aufgaben gleichzeitig verarbeiten. Netzwerkteams können DPUs unabhängig verwenden oder DPUs in smartNICs einsetzen, die einige Netzwerkaufgaben auslagern und dazu beitragen, Rechenressourcen für KI-Training und -Workloads freizugeben. DPUs können außerdem Telemetriedaten direkt am Host erfassen, Verschlüsselung/Isolation durchsetzen und Storage-Protokolle terminieren (etwa NVMe-oF), was Latenzen senkt und die CPU entlastet.
Geschwindigkeiten und Optiken Back-End-Fabrics für KI entwickeln sich von 200/400 GbE zügig auf 800 GbE weiter; erste 1,6‑T‑Generationen zeichnen sich ab. Planung und Budgetierung sollten Modultypen (OSFP/QSFP‑DD), Link-Budgets, DAC/AOC versus Optik sowie Energie- und Kühlanforderungen berücksichtigen. Für InfiniBand gelten analog NDR (400 GBit/s) und XDR‑Roadmaps.
Dreistufige und fünfstufige Clos-Netzwerke
Netzwerke, die für den Transport von KI-Workloads konzipiert sind, verwenden in der Regel eine nicht blockierende dreistufige oder fünfstufige CLOS-Netzwerkarchitektur. Ein Clos-Netzwerk (CLOS) ist eine mehrstufige, annähernd nicht blockierende Switching-Topologie, die aus vielen kleinen, kostengünstigen Switches aufgebaut wird. Typisch ist die Spine-Leaf-Architektur, bei der alle Leaf-Switches mit allen Spine-Switches verbunden sind. ECMP (Equal-Cost Multi-Path) verteilt Lasten über viele gleichwertige Pfade, moderne ASICs ergänzen dies durch adaptive Pfadwahl und fein granulare Lastverteilung, um Hotspots zu vermeiden.
Dieses Design ermöglicht es zahlreichen GPUs, Daten parallel zu verarbeiten. Bei dieser Architektur kann ein Netzwerk die acht- bis 16-fache Port-Dichte gegenüber herkömmlichen Data-Center-Netzwerken bewältigen. Das CLOS-Design bietet auch Effizienz für die Datenübertragung zwischen GPUs und Storage. In der Praxis variiert die effektive Port-Vervielfachung stark (Rack-Layouts, Anzahl der GPU‑NICs pro Server, Ost-West‑Anteil). Wichtig sind eine modular skalierbare Fabric-Kapazität und Reserven für Re‑Spines.
Intelligente Netzwerkautomatisierung mit Netzwerkmanagement-Tools
Die Beseitigung menschlicher Fehler beim Betrieb von Data Center-Netzwerken ist ein schnell wachsendes und sich weiterentwickelndes Ziel der Unternehmens-IT. Netzwerk-Orchestrierungs-Tools gehen dieses Problem mit intelligenter Automatisierung an. Diese Tools ersetzen manuelle Konfigurationsprozesse durch integrierte KI-Funktionen zur Durchführung von Konfigurationsaufgaben.
KI-gestützte Tools für die Netzwerkorchestrierung können Konfigurationen im gesamten Netzwerk vereinheitlichen und erkennen, ob Änderungen andere Teile des Netzwerks stören werden. Diese Plattformen für die Netzwerk-Orchestrierung prüfen und validieren kontinuierlich bestehende Netzwerkkonfigurationen. Sie können die Zustands- und Leistungsdaten der Netzwerkkomponenten analysieren und optimieren. Wenn das System Konfigurationsänderungen zur Optimierung des Datenflusstransports feststellt, kann es diese Änderungen ohne menschliches Zutun vornehmen. Ergänzend gewinnen Telemetrie und Observability an Bedeutung.
Storage- und Datenpfade für KI
Für ein performantes Training müssen Daten schnell und verlässlich bereitstehen. Häufige Ansätze sind NVMe-over-Fabrics (RoCE oder TCP) für latenzkritische Pfade, NFS mit RDMA-Beschleunigung sowie parallele Filesysteme für hohen Durchsatz. Wichtig sind Engpass-Analysen zwischen GPU-Fabrics und Storage-Netzen, QoS-Richtlinien und Vorverarbeitung (Caching/Prefetching).
Skalierung über Standorte
Für besonders große Cluster rückt die Kopplung mehrerer Standorte in den Fokus. Entscheidend sind Latenzbudgets, Distanz-Congestion-Control und belastbare Interconnects, da sich nicht alle Trainingsverfahren sinnvoll über längere Distanzen verteilen lassen.
Dieser Artikel wurde im September 2025 aktualisiert und erweitert.