sabida - stock.adobe.com

Komplexitäten bei der KI-Integration in Legacy-Rechenzentren

KI-Server stellen neue Anforderungen an Rechenzentren. Umrüstung bei Energie, Kühlung und Traglast ist nötig, damit ältere Anlagen den Betrieb zuverlässig sichern.

Rechenzentren jeder Größe integrieren angesichts steigender Workload-Anforderungen aktueller KI-Server in ihre Infrastruktur. Die Integration von künstlicher Intelligenz in Legacy-Rechenzentren ist komplex, da diese nicht für erhöhte Serverlasten und Wärmeentwicklung ausgelegt sind.

Die Integration von KI erfordert spezielle Designs, ähnlich denen in Hyperscale-Rechenzentren, die ebenfalls mit hohen Lasten konfrontiert sind. Fortschritte in der Verarbeitungsgeschwindigkeit und die wachsende Nachfrage nach KI-Servern führen dazu, dass Prozessoren mehr Wärme erzeugen als herkömmliche Kühlsysteme in Legacy-Rechenzentren. Kühlsysteme müssen weiterentwickelt werden, um mit den steigenden Temperaturen Schritt zu halten. Dies erfordert Änderungen an der Infrastruktur und am Design in Bezug auf Bodenbelastung, Rack-Fläche, Rack-Dichte und Energieverwaltung sowie die Integration von Flüssigkeitskühlsystemen.

Bodenbelastung und Schränke

Die ersten Rack-Schränke waren 610 Millimeter im Quadrat groß und wogen etwa 113 Kilogramm. Die meisten Gebäudeböden konnten dies tragen, wenn die Lasten durch doppelte Böden verteilt wurden. Durch die Weiterentwicklung und Integration von KI-Servern nehmen Gewicht und Größe der Racks zu. Moderne Schränke können heute 1.134 bis 1.361 Kilogramm tragen. Schwerere Schränke erfordern möglicherweise Bodenbelastbarkeiten, die die meisten Neubauten nicht bieten.

Administratoren sollten Schränke ersetzen oder verstärken, um das erhöhte Gewicht von KI-Servern zu tragen. Dazu müssen die Größe und das Gewicht der Schränke, die Anzahl der Server-Racks, die Gestaltung der Gänge, die Kühlsysteme und die Tragfähigkeit des Doppelbodens bewertet werden, die je nach Bodenhöhe und Platzierung der Geräte variieren. Außergewöhnlich tiefe Schränke passen in der Regel nicht in die Abstände der alten Reihen, was die Anordnung erschwert. IBM bietet einen Rechner für die Bodenbelastung an, der den Wert der Bodenbelastung durch die Geräte schätzt.

Strom

Standard-Rechenzentrumsschränke enthalten 42 Rack-Einheiten, wobei die gängigsten Rack-Konfigurationen zwischen 100 Kilowatt und 150 Kilowatt liegen. Ältere Rechenzentren wurden für eine Rack-Dichte von fünf Kilowatt bis zehn Kilowatt ausgelegt. Die Integration von KI-Servern erfordert eine Rack-Dichte von mindestens 50 Kilowatt. Herkömmliche Wechselstromkreise und -verkabelungen können den für größere KI-Arrays erforderlichen Strom nicht effizient liefern. Darüber hinaus sind herkömmliche Netzkabel, Stecker und Steckdosen nicht für die Temperaturen in KI-Serverschränken ausgelegt.

Viele KI-Plattformen sind auf 400 Volt Gleichstrom standardisiert und erfordern spezielle Stromversorgungen und integrierte Stromverteilungsbusse. Administratoren sollten Experten beauftragen, die gesamte Stromversorgung in einen Schrankkomplex mit dem Computerrack zu integrieren und Stromverteilerbusse zu installieren, um die Stromverteilung über den Doppelböden zu verwalten. Dies erhöht den Luftstrom und die Kühleffizienz.

Abbildung 1: Das sind mögliche Anforderungen an die Stromversorgung.
Abbildung 1: Das sind mögliche Anforderungen an die Stromversorgung.

Die Nennleistungen in Abbildung 1 gelten nur für eine KI-Computing-Cluster-Plattform, die wahrscheinlich am häufigsten in einem Legacy-Rechenzentrum installiert ist. Größere Installationen verwenden noch höhere Spannungen und die gesamte Stromversorgung sollte redundant ausgelegt sein.

Eine stabile unterbrechungsfreie Stromversorgung ist für KI-Infrastrukturen, die ständig mit 100 Prozent Auslastung betrieben werden, von entscheidender Bedeutung. Administratoren müssen den erhöhten Strombedarf für die Integration und den Betrieb von KI-Servern ermitteln und die elektrischen Systeme entsprechend anpassen, um den Energiebedarf zu decken. Administratoren sollten auch Notstromaggregate bewerten und diese aufrüsten, um sicherzustellen, dass die Backup-Systeme den erhöhten Energieverbrauch bewältigen können, um Ausfallzeiten zu minimieren.

Kühlung

Viele KI-Server unterstützen die Integration von Direct-to-Chip-Flüssigkeitskühlkreisläufen, die die Prozessoren kühlen. Direct-to-Chip-Systeme kühlen bis zu 75 Prozent der Wärmebelastung, während herkömmliche Kühlsysteme die restliche Wärme abführen.

Wenn beispielsweise für ein 60-kW-Rack 25 Prozent Zusatzluft benötigt werden, sind 15 Kilowatt Luftkühlung erforderlich, was innerhalb der Kapazität gut konzipierter Kühlgeräte für Rechenzentren liegen sollte. Ein 150-Kilowatt-Rack benötigt 30 bis 45 Kilowatt Luftkühlung, was die Reservekapazität der meisten Legacy-Luftsysteme übersteigt. Eine 250-Kilowatt-Anlage könnte 50 bis 75 Kilowatt oder mehr an Luftkühlung erfordern, was in Hyperscale-Rechenzentren möglich ist.

Alternative Kühlsysteme, die in Betracht gezogen werden sollten

Kühlsysteme müssen rund um die Uhr mit Redundanz und außergewöhnlich hoher Zuverlässigkeit arbeiten. Effektive Kühlsysteme hängen vom Standort des Rechenzentrums ab. Verdunstungskühlung oder der Einsatz separater Kühltürme sind beispielsweise in heißen, trockenen Klimazonen am besten geeignet. Trockenkühlung eignet sich am besten bei Wasserknappheit oder in kühleren Klimazonen.

Für die Verteilung des Wassers an die Computergeräte sind Kühlmittelverteilungsgeräte (Coolant Distribution Units, CDUs) erforderlich. Diese speziellen Wärmetauscher verbinden die Wasserversorgung des Gebäudes mit der Wasserversorgung der Schränke.

Bei der Direktkühlung des Chips werden Mikrokanäle verwendet, die durch verunreinigtes Wasser verstopft werden können. Die CDU ermöglicht eine gründliche Filterung und Aufbereitung des Wassers der Anlage. Kleine CDUs sind für die Rack-Montage erhältlich, und große CDUs verfügen über Ausgleichsventile, die Geräte mit unterschiedlichen Durchfluss- und Druckanforderungen verbinden.

Eine weitere alternative Kühlmethode ist der Einsatz von aktiven Rack-Türkühlern, die gekühltes Wasser benötigen. Aktive Türkühler verbrauchen zwar Ventilatorleistung, sind aber in der Regel energieeffizienter als große Luftkühlungsanlagen, wodurch integrierte Chip- und luftgekühlte Schränke realisierbar werden.

Auf einen Blick: KI-Integration in Legacy-Rechenzentren

Die Integration von KI-Servern in Legacy-Rechenzentren stellt hohe Anforderungen an Infrastruktur, Stromversorgung und Kühlung. Ältere Anlagen sind häufig nicht auf die gestiegene Rack-Dichte, Wärmeentwicklung und Lasten ausgelegt. Anpassungen sind nötig bei Bodenbelastung, Stromverteilung und Kühlsystemen, etwa durch Direct-to-Chip-Kühlung oder CDUs. Auch Notstromversorgung und Redundanz müssen optimiert werden, um einen zuverlässigen und effizienten Betrieb sicherzustellen.

Erfahren Sie mehr über Data-Center-Betrieb