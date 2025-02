Grafikprozessoren sind praktisch zu einem allgegenwärtigen Begriff geworden, da sie aufgrund künstlicher Intelligenz(KI) immer beliebter werden. Aber auch eine weniger bekannte Technologie, die in Verbindung mit GPUs funktioniert, erlebt gerade einen Aufschwung: High-Bandwidth Memory (HBM) – Memory mit einer hohen Bandbreite.

HBM ist ein hochdichtes Memory-Produkt, das entwickelt wurde, um Memory-Engpässe zu überwinden und die maximale Rate zu erreichen, mit der Daten vom Storage zum Prozessor übertragen werden. Die Technologie stellt mit ihrer höheren Bandbreite und ihrer Position direkt neben dem Prozessorchip des Grafikprozessors die Leistung herkömmlicher Memory-Technologien wie Server-RAM in Frage, das sich zwischen Speicher und Prozessoreinheit befindet. HBM verbraucht außerdem weniger Strom als andere Memory-Typen, was dem Training von KI-Modellen und GPU-Umgebungen zugutekommen könnte, da diese dafür bekannt sind, viel Energie zu verbrauchen.

Die zunehmende Beliebtheit von HBM wird jedoch wahrscheinlich nachlassen, da sich der Markt vom KI-Modelltraining zum KI-Inferenzieren verlagert, wo traditionelle Technologien möglicherweise kostengünstiger sind. In einer Prognoseanalyse für 2023 gab Gartner an, dass die Verwendung von Beschleunigerchips, die HBM für das KI-Modelltraining integrieren, von 65 Prozent im Jahr 2022 auf voraussichtlich 30 Prozent im Jahr 2027 sinken wird.

TSV ist keine gängige Verbindungsmethode für andere Chips, die in der Regel mit Drahtbonden hergestellt werden. Die Herstellung der Chips wird dadurch teurer und HBM muss mehr als doppelt so groß sein, um diesen Prozess zu ermöglichen. Der Wafer kostet mehr, wobei weniger als halb so viele Chips produziert werden. Die Herstellung ist nicht nur teurer als die von RAM-Speicher, sondern auch länger. Da mehr Wafer zum Einsatz kommen, ist der HBM-Ertragsverlust entsprechend größer.

Der größere Chip ist aufgrund des Trough-Silicon-Via-Prozesses ( TSV) erforderlich. Es werden Löcher in die Chips gebohrt, um Platz für dünne elektrische Drähte zu schaffen, die die DRAM-Chips miteinander und dann mit einem Logikchip am unteren Ende des Stapels verbinden, der die Datenübertragungsfunktion verwaltet.

Während HBM und GDDR beide DRAM-Chips verwenden, ist HBM auf der GPU anders positioniert. GDDR- DRAM ist in der Regel auf der Leiterplatte in einem GPU-Kartendesign positioniert, während HBM neben dem Prozessor selbst sitzt. Diese Nähe zum Prozessor ist der Hauptvorteil von HBM und resultiert in einer höheren Geschwindigkeit.

SK Hynix setzte sich gegen Samsung, den weltgrößten Speicherhersteller, und Micron, den drittgrößten Speicherhersteller, durch, indem es HBM aggressiver für HPC verfolgt. Zu diesem Zweck investierte SK Hynix einen hohen Betrag in Vorabkosten, ohne die Bedeutung für KI zu kennen. Kein Analystenhaus prognostizierte ein so expansives Wachstum des KI-Markzs für GPU, sodass die Hersteller überracht wurden.

Die Zukunft von HBM

Prognosen shen allerdings ein Ende der Popularität von HBM, da sich der KI-Markt vom Modelltraining zum Inferenzieren verlagert. Im Moment ist der Markt in einer Phase, in der viele KI-Modelle entwickelt werden, was kurzfristig zu einem ziemlich starken Anstieg in Bezug auf HBM führen wird. Inferenzen werden auf anderen Formen an Memory basieren und dies könnte möglicherweise zu einem Zustrom von mehr maßgeschneiderten Inferenzchips führen.

Inferenz-Workloads sind vergleichsweise weniger intensive Workloads, aber Anwender benötigen eine höhere Anzahl an Servern oder Chips, um diese Workloads auszuführen. Die zukünftigen Verkaufszahlen von HBM sind schwer zu bestimmen und werden wahrscheinlich genauso schwanken wie bei jeder anderen Technologie, die auf Nachfrage und Wettbewerb basiert.

Wenn Hyperscaler sich dafür entscheiden, weiterhin die hochwertigsten GPUs zu kaufen, dann werden sie HBM immer verwenden. Falls hier ein Umdenken geschieht, kann dies den HBM-Markt nachhaltig beeinflussen.

Was die Technologie betrifft, so gehen Experten davon aus, dass sie einem ähnlichen Muster folgen wird wie andere Memory-Typen, wie zum Beispiel DRAM, bei denen die Anbieter zunehmend nach höherer Bandbreite und größerer Dichte streben. Dies zeigt sich daran, dass HBM3E jetzt in Produktion und HBM4 für 2026 geplant ist, wobei die Bandbreite in der nächsten Version von 1 TB/s auf 1,4 TB/s erhöht wird.

Zudem gibt es physische Hürden bei der Skalierung von HBM, darunter das GPU-Design von Nvidia. Nvidias GPUs sind vierseitige Chips, von denen zwei für HBM und die anderen beiden für I/O und Stromversorgung vorgesehen sind. Eine Erhöhung der HBM-Menge pro Einheit könnte eine Neugestaltung der GPU erfordern, aber das ist noch Zukunftsmusik. Letztlich wird es nicht um Leistungseinschränkungen gehen, sondern um verfügbaren Platz für das HBM im System.