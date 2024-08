Die generative KI hat durch ihre jüngsten Fortschritte eine hohe Aufmerksamkeit erlangt. Viele Unternehmen beschäftigen sich heute mit KI und maschinellem Lernen (ML). Rechenzentren sind dabei das Fundament der künstlichen Intelligenz (KI) und Rechenzentrumsnetzwerke spielen eine entscheidende Rolle bei der Verbindung kostspieliger GPU-Server, die die rechenintensive Verarbeitung beim KI-Training durchführen.

Das KI-Training ist der technologisch anspruchsvollste Teil des gesamten KI-Prozesses, insbesondere bei komplexen Deep-Learning-Modellen, die große Datenmengen und eine verteilte Verarbeitung durch GPUs erfordern, um eine optimale Leistung zu erzielen. Das Training eines hochmodernen Bilderkennungsmodells kann zum Beispiel Millionen von gelabelten Bildern erfordern. Wenn das Netzwerk einen Engpass darstellt, wird kostenintensive Rechenzeit verschwendet. Es geht also um den Aufbau eines sogenannten Loss-less Network. Paketverlust (Packet Loss) ist dabei nicht der wichtigste Parameter, Überlastungen/Staus (Congestion) beziehungsweise deren Verhinderung sind ebenso zu beachten. Daher müssen die GPUs in einer hochperformanten Struktur miteinander verbunden werden, um das Training zu beschleunigen. Diese dedizierte Struktur wird als Backend-Fabric bezeichnet, die sowohl GPU-Training-Cluster als auch Speichernetzwerke unterstützt und eine leistungsstarke Vernetzung mit geringer Latenz für jeden Service bietet. Sobald das Modell trainiert ist, wird es in die KI-Inferenzphase überführt, in der es in einer realen Umgebung arbeitet, um Prognosen oder Entscheidungen auf der Grundlage neuer, unbekannter Daten zu treffen. Die KI-Inferenz-Cluster sind dabei mit Frontend-Netzwerken verbunden, die eine Verbindung zur Außenwelt herstellen, um Inferenzanfragen etwa von Benutzern oder IoT-Geräten zu bearbeiten.

Gehen Unternehmen den KI-Weg, sollten sie vor allem die Frage stellen, wie sie einen Cluster für KI- und ML-Workloads performant und kosteneffizient aufbauen können. Als Kostentreiber und limitierende Faktoren müssen dabei zunächst GPUs und InfiniBand ins Blickfeld rücken.

GPUs als Kostentreiber Moderne KI- und ML-Cluster bestehen aus Hunderten, manchmal auch aus Tausenden von GPUs. Sie werden benötigt, um die massive, parallele Rechenleistung bereitzustellen, die zum Trainieren moderner KI-Modelle erforderlich ist. GPUs müssen in Clustern arbeiten, um effizient zu sein. Das Skalieren von Clustern verbessert zwar die Effizienz des KI-Modells, erhöht jedoch auch die Kosten. Die Reduzierung der Job-Abschlusszeit (Job Completion Time, JCT) und die Minimierung beziehungsweise Eliminierung der Tail-Latenz sind hier die Schlüssel zu Kosteneinsparungen und auch zu mehr Geschwindigkeit. Die JCT betrifft die Zeit, die für das Training des KI-Modells benötigt wird, und die Tail-Latenz die Wartezeit des Systems bis zum Abschluss der Berechnungen durch die letzte GPU, bevor der nächste Trainingslauf startet.

Anbieterunabhängig durch Ethernet Im Hinblick auf die notwendige Optimierung der GPU-Performance gewinnt vor allem das Ethernet als offene Netzwerkalternative für KI-Rechenzentren zunehmend an Bedeutung. In der Vergangenheit war InfiniBand, eine proprietäre Hochgeschwindigkeits-Netzwerktechnologie mit niedriger Latenz, oft die erste Wahl aufgrund der schnellen und effizienten Kommunikation zwischen Servern und Speichersystemen. Inzwischen wird aber vermehrt Ethernet genutzt, da es Vorteile hinsichtlich des Betriebs und der Kosten bietet. Im Unterschied zu einem proprietären InfiniBand-Netzwerk gibt es viele Netzwerkprofis, die ein Ethernet aufbauen und betreiben können. Ethernet ist damit eine Lösung, um die spezifischen Anforderungen von KI-Anwendungen zu bewältigen – gerade dank eines hohen Datendurchsatzes und einer niedrigen Latenz. Die Netzwerktechnologie entwickelt sich kontinuierlich weiter, aktuelle Neuerungen betreffen etwa 800 GbE und Data Center Bridging (DCB), die die Geschwindigkeit, Zuverlässigkeit und Skalierbarkeit erhöhen. Zu den Verbesserungen gehören auch das Congestion Management, das Load Balancing, die minimierte Latenz für die JCT-Optimierung sowie eine vereinfachte Verwaltung und Automatisierung. Damit sind Ethernet-Fabrics ideale Architekturen für den unternehmenskritischen KI-Datenverkehr.