HPE

Feature

HPE bringt KI-Racks auf Basis von AMD Helios ab 2026

HPE setzt auf eine offene Full-Stack-KI-Plattform für große KI-Workloads. Sie soll Konnektivität mit hoher Bandbreite und geringer Latenz über riesige KI-Cluster hinweg bieten.

von

Michael Eckert, Editorial Director

Zuletzt aktualisiert: 04 Dez. 2025

HPE und AMD intensivieren ihre Zusammenarbeit, um eine offene und skalierbare KI-Infrastruktur auf Basis der Helios-Architektur zu entwickeln. HPE setzt diese Architektur in eigenen Racks um und plant den weltweiten Vertrieb ab 2026.

Helios ist ein offenes Rack-Scale-Design im Open-Rack-Wide-Format (OCP). Es kombiniert AMD EPYC Venice, AMD-Instinct-Beschleuniger, AMD-Pensando-Netzwerkkomponenten und den offenen Software-Stack ROCm. Ein eigens entwickelter Ethernet-Switch von HPE Juniper, der in Zusammenarbeit mit Broadcom entstand, soll die Beschleuniger im Rack als Scale-up-Fabric koppeln und so eine hohe Bandbreite bei niedriger Latenz bereitstellen. Der Switch nutzt laut HPE außerdem die KI-nativen Automatisierungs- und Sicherungsfunktionen von HPE, um den Netzwerkbetrieb zu vereinfachen, die Bereitstellung zu beschleunigen und insgesamt Kosten einzusparen sollen.

Technische Eckdaten

Die von HPE kommunizierten Daten:

Pro Rack können bis zu 72 AMD Instinct MI455X eingesetzt werden. Das ergibt laut Anbieter bis zu 2,9 KI-Exaflops FP4-Leistung pro Rack.
HPE nennt eine aggregierte Scale‑up‑Bandbreite von bis zu 260 TByte/s pro Rack.
Die Plattform soll bis zu 31 TByte HBM4-Speicher und eine Speicherbandbreite von bis zu 1,4 PByte/s pro Rack bereitstellen.
Die Software‑Basis bildet der offene ROCm‑Stack für KI‑ und HPC‑Workloads.

HPE positioniert Helios als Ethernet‑basierten Ansatz für Scale‑up im Rack. Der Switch unterstützt laut Hersteller Ultra Accelerator Link over Ethernet (UALoE). Parallel arbeiten das Ultra Ethernet Consortium (UEC) und das UALink‑Konsortium an Spezifikationen für offene Fabrics. Der Anspruch ist Interoperabilität und die Vermeidung von Vendor Lock‑in.

Antonio Neri, Präsident und CEO von HPE, sagte während der HPE Doscover 2025 am 3. Dezember: „Seit mehr als einem Jahrzehnt erweitern HPE und AMD die Grenzen des Supercomputings, liefern mehrere Systeme der Exascale-Klasse und setzen sich für offene Standards ein, die Innovationen beschleunigen. Mit der Einführung des neuen AMD „Helios“ und unserer speziell entwickelten HPE Scale-up-Netzwerklösung bieten wir unseren Cloud-Service-Provider-Kunden schnellere Bereitstellungen, größere Flexibilität und geringere Risiken bei der Skalierung von KI-Computing in ihren Unternehmen.“

Vergleichbare Rack‑Scale‑Lösungen

Mehrere Anbieter adressieren KI-Training und -Inferenz in der Rack‑Skalierung. Die Beispiele zeigen unterschiedliche Interconnect‑Strategien und Reifegrade.

Nvidia NVL72/GB200‑ und GB300‑Designs

Zur Einordnung hilft ein Blick auf Nvidias Referenzracks. Das NVL72-Konzept kombiniert 72 GPUs mit 36 CPUs pro Rack und bildet mittels NVLink/NVSwitch eine gemeinsame Scale-up-Domäne. Nvidia gibt sehr hohe interne Kommunikationsbandbreiten an und verweist für die Rack-übergreifende Skalierung auf InfiniBand Quantum-X oder Spectrum-X-Ethernet. Diese Architektur ist zwar verbreitet, bleibt jedoch proprietär und führt zu einer stärkeren Anbieterbindung.

Intel Gaudi 3 Rack‑Scale

Laut eigenen Angaben bietet Intel Rack-Scale-Referenzdesigns mit bis zu 64 Beschleunigern pro Rack an. Die Architektur priorisiert Ethernet beziehungsweise RoCE als Transportprotokoll. Das Software-Ökosystem hat in den letzten Generationen sichtbar zugelegt, bleibt im Umfang jedoch kleiner als das CUDA-Ökosystem von Nvidia.

OCP‑basierte Open‑Rack‑Angebote weiterer Anbieter

Auch andere Hersteller liefern OCP-Open-Rack-basierte Lösungen, häufig mit Direktflüssigkühlung und wahlweise Nvidia- oder AMD-Beschleunigern. Dazu zählen je nach Projekt etwa Dell- und Lenovo-Plattformen. Die konkrete Ausprägung variiert je nach Kundenanforderung und gewähltem Interconnect.

Stärken und Grenzen im Vergleich

Für IT-Architekten sind Interconnect, Software-Ökosystem, Lieferbarkeit und Betreibererfahrung entscheidend.

Helios setzt auf eine offene Ethernet-Scale-up-Fabric, um Interoperabilität zu fördern und Lock-in-Risiken zu reduzieren. Der Reifegrad in sehr großen Trainingsclustern muss sich jedoch erst in der Praxis erweisen.
NVL72 überzeugt mit einer stark integrierten NVLink/NVSwitch-Scale-up-Domäne, die in vielen produktiven Umgebungen als praxiserprobt gilt. Diese Stärke wird jedoch mit proprietären Abhängigkeiten erkauft.
Gaudi 3 adressiert eine Ethernet-first-Strategie und zielt auf attraktive TCO-Profile. Die Software-Werkzeuge und Bibliotheken sind zwar gewachsen, erreichen nach heutigem Stand aber noch nicht die Breite von CUDA.

HLRS Herder

HPE während der Dicoever 2025 gab auch bekannt, dass das High‑Performance Computing Center Stuttgart (HLRS) mit Herder ein Supercomputing-System auf Basis von HPE Cray GX5000 und AMD‑Beschleunigern plant. Zum Einsatz kommen laut Betreiber AMD Instinct MI430X und die nächste Generation AMD EPYC Venice. Die Lieferung ist für die zweite Jahreshälfte 2027 vorgesehen, der Produktionsbetrieb bis Ende 2027 geplant.

Herder soll laut Universität Stuttgart „mehr als siebenmal so schnell werden wie das derzeitige System Hunter und nach seiner Inbetriebnahme zu den weltweit fortschrittlichsten Höchstleistungsrechnern gehören.“

Fazit

Helios ist eine offene, OCP-basierte Rack-Scale-Plattform, die als Alternative zu proprietären KI-Stacks positioniert ist. Laut HPE und AMD sollen ein Ethernet-basiertes Scale-up, eine hohe Speicherdichte und der ROCm-Stack große Modelle effizient adressieren. Im Vergleich zu NVLink-Domänen bietet dieser Ansatz potenziell mehr Offenheit und Flexibilität. Allerdings sind Reife und Benchmarks in produktiven Großumgebungen noch zu validieren.

Transparenzhinweis: Wir haben die Discover 2025 auf Einladung von HPE besucht und berichten unabhängig über wichtige Neuheiten.

Alle Leistungs-, Bandbreiten- und Speicherdaten sind Herstellerangaben. Unabhängige Benchmarks lagen zum Redaktionsschluss nicht vor.