DIgilife - stock.adobe.com

AI Factory: Wie Rechenzentren heute geplant werden müssen

Um moderne Rechenzentren aufzubauen, ist eine Erweiterung oft nicht ausreichend. Stattdessen muss geplant werden, um den Anforderungen von künstlicher Intelligenz zu entsprechen.

Das neue, moderne Rechenzentrum ist nicht nur eine Erweiterung eines bestehenden Rechenzentrums. In vielen Fällen erfordern die steigenden KI-Anforderungen (künstliche Intelligenz) von Unternehmen eine präzise Planung und einen Neuanfang. Das einfache Hinzufügen von GPU-Servern zu einer bestehenden Infrastruktur wird nicht die Ergebnisse liefern, die Unternehmen benötigen. Eine AI Factory liefert entscheidende Mehrwerte aus vorhandenen Daten und erfordert neue Denkansätze, um optimale Ergebnisse zu erzielen.

Rack-Level-Mentalität

In der Vergangenheit wurden einzelne Server basierend auf bestimmten Leistungsdaten (CPU-Geschwindigkeit, Speicherkapazität und GPU-Auswahl) zu einem bestehenden Satz von Systemen in einem Rack hinzugefügt.

Im Laufe der Zeit führte dieser Auftritt eines Rechenzentrums zu einem Rack mit vielen verschiedenen Systemen für unterschiedliche Workloads, wobei jeder Server im Grunde eigenständig war. Einige Anwendungen wurden zwar für die Ausführung auf mehreren Servern (HPC) entwickelt, das setzte jedoch Kenntnisse der Netzwerkprotokolle sowie zusätzliche Software voraus und führte zu Verzögerungen bei der Kommunikation der Systeme untereinander.

Die neue Denkweise, dass das Rack der neue Server ist, ermöglicht es den Betreibern von Rechenzentren, eine skalierbare Lösung zu schaffen, indem sie auf Rack-Ebene denken. Innerhalb eines Racks kann eine komplette Lösung für das KI-Training in sich geschlossen sein, wobei Erweiterungen für höhere Leistungsanforderungen jederzeit verfügbar sind.

Ein einzelnes Rack kann bis zu acht Server mit jeweils acht miteinander verbundenen GPUs enthalten. Dann kann jede GPU mit vielen anderen GPUs im Rack kommunizieren, da die Switches ebenfalls im Rack enthalten sein können. Die gleiche Kommunikation kann zwischen Racks eingerichtet werden, um über ein einzelnes Rack hinaus zu skalieren, sodass eine einzelne Anwendung Tausende von GPUs nutzen kann.

In einer AI Factory können verschiedene GPUs verwendet werden. Nicht alle Anwendungen oder ihre vereinbarten SLAs (Service Level Agreements) erfordern die schnellsten GPUs, die derzeit auf dem Markt sind. Weniger leistungsstarke GPUs können für viele Umgebungen völlig ausreichend sein und verbrauchen in der Regel weniger Strom.

Michael McNerney, Supermicro

"Innerhalb eines Racks kann eine komplette Lösung für das KI-Training in sich geschlossen sein, wobei Erweiterungen für höhere Leistungsanforderungen jederzeit verfügbar sind."

Michael McNerney, Supermicro

Darüber hinaus benötigen diese sehr dichten Server mit GPUs eine Flüssigkeitskühlung, was optimal ist, wenn sich die Kühlmittelverteilungseinheit (CDU, Coolant Distribution Unit) ebenfalls im Rack befindet, wodurch die Schlauchlängen reduziert werden.

Die Montage und das Testen ganzer Cluster sind wichtig für die schnelle Inbetriebnahme einer neuen AI Factory. Die Fähigkeit eines einzelnen Anbieters, alle Komponenten, die in eine AI Factory einfließen, gemäß den Anforderungen der Kunden zu testen, verringert das Risiko von Problemen bei der erstmaligen Installation der verschiedenen Komponenten am Standort des Kunden.

Bei der L12-Integration (Cluster) werden nicht nur die Hardware und die Netzwerkkomponenten getestet, sondern auch die Softwareumgebung, die auf dem gesamten Cluster und nicht nur auf einem einzelnen Server ausgeführt wird.

Flüssigkeitskühlung

Die neuesten Generationen von CPUs und GPUs drängen Server in Richtung Flüssigkeitskühlung. Die Möglichkeit der Luftkühlung von Servern, die bald zehn kW überschreiten werden, wird mit jeder neuen CPU- und GPU-Technologie schwieriger.

Racks nähern sich nun einer Gesamtleistungsaufnahme von bis zu 100 kW Leistung an. Diese Wärme muss aus dem System abgeführt werden, damit es mit der vorgesehenen Leistung läuft. Hier kommt die Flüssigkeitskühlung ins Spiel, die sich immer mehr durchsetzt, insbesondere in KI- und HPC-Umgebungen, in denen die CPUs und GPUs kontinuierlich mit voller (oder Boost-)Geschwindigkeit laufen sollen. Die Flüssigkeitskühlung kann hunderte Male mehr Wärme abführen als Luft und reduziert gleichzeitig die Anforderungen an die Kühlungsinfrastruktur des Rechenzentrums.

Entgegen der weit verbreiteten Meinung ist der Bau eines flüssigkeitsgekühlten Rechenzentrums nicht teurer als der Bau eines luftgekühlten Rechenzentrums, und durch niedrigere Betriebskosten werden die Einsparungen noch Jahre nach dem Ausbau spürbar sein.

Die Vorteile eines flüssigkeitsgekühlten Rechenzentrums lassen sich wie folgt zusammenfassen:

  • bessere Energieeffizienz (Power Usage Effectiveness, PUE): Außerhalb der Server-, Storage- und Netzwerkinfrastruktur wird weniger Strom verbraucht.
  • mehr Rechenleistung: Bei reduziertem Stromverbrauch (niedriger PUE-Wert) können bei gleichem Budget für eine bestimmte Eingangsleistung des Rechenzentrums mehr Server installiert werden.
  • schnellere Datenverarbeitung: Durch Flüssigkeitskühlung kann die CPU länger mit ihrer Boost-Rate laufen, da die CPUs kühler gehalten werden können und somit nicht gedrosselt werden müssen.

Eine vollständige Flüssigkeitskühlungslösung muss über Kühlplatten verfügen, die die Kühlkörper ersetzen, die sich auf den CPUs und GPUs befinden. Schlauch-Kits sind erforderlich, um die kalte Flüssigkeit zur richtigen Hardware zu leiten und sie von derselben Hardware wegzuführen.

Kühlmittelverteiler leiten die kalte Flüssigkeit zu den Servern und führen die erwärmte Flüssigkeit zur Kühlmittelverteilungseinheit (CDU) zurück. Die CDU leitet die erwärmte Flüssigkeit dann zu einem Kühl- oder Wasserturm, um die Temperatur der Flüssigkeit wieder auf ein Niveau zu bringen, bei dem sie zurück zu den Servern geleitet werden kann.

Eine neue AI Factory unterscheidet sich von einem bestehenden Rechenzentrum. Mit High-End-Servern, die mehrere GPUs enthalten, wird ein Rack zur Basiseinheit für weitere Erweiterungen. Diese Basiseinheiten können dann zu ganzen Rechenzentren ausgebaut werden, wobei jede GPU direkt mit anderen GPUs verbunden ist, um eine massiv parallele AI Factory zu schaffen. Die Flüssigkeitskühlung ist für diese hochdichten Server von entscheidender Bedeutung, da die TDP der CPUs und GPUs weiter zunimmt.

Über den Autor:
Michael McNerney ist Senior Vice President Marketing & Network Security bei Supermicro. Er hat über 20 Jahre Erfahrung in der Enterprise IT-Branche gesammelt und viele Produkte, Programme und Kampagnen zum Erfolg geführt. Vor seiner Tätigkeit bei Supermicro bekleidete er Führungspositionen bei Sun Microsystems und Hewlett-Packard.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Data-Center-Infrastruktur