envfx - stock.adobe.com

KI-Training treibt den Bedarf nach Memory mit hoher Bandbreite

Memory mit hoher Bandbreite, die vor über einem Jahrzehnt entwickelt wurden, erfreuen sich aufgrund der Nachfrage nach High-End-Grafikprozessoren immer größerer Beliebtheit.

Grafikprozessoren sind praktisch zu einem allgegenwärtigen Begriff geworden, da sie aufgrund künstlicher Intelligenz(KI) immer beliebter werden. Aber auch eine weniger bekannte Technologie, die in Verbindung mit GPUs funktioniert, erlebt gerade einen Aufschwung: High-Bandwidth Memory (HBM) – Memory mit einer hohen Bandbreite.

HBM ist ein hochdichtes Memory-Produkt, das entwickelt wurde, um Memory-Engpässe zu überwinden und die maximale Rate zu erreichen, mit der Daten vom Storage zum Prozessor übertragen werden. Die Technologie stellt mit ihrer höheren Bandbreite und ihrer Position direkt neben dem Prozessorchip des Grafikprozessors die Leistung herkömmlicher Memory-Technologien wie Server-RAM in Frage, das sich zwischen Speicher und Prozessoreinheit befindet. HBM verbraucht außerdem weniger Strom als andere Memory-Typen, was dem Training von KI-Modellen und GPU-Umgebungen zugutekommen könnte, da diese dafür bekannt sind, viel Energie zu verbrauchen.

Die zunehmende Beliebtheit von HBM wird jedoch wahrscheinlich nachlassen, da sich der Markt vom KI-Modelltraining zum KI-Inferenzieren verlagert, wo traditionelle Technologien möglicherweise kostengünstiger sind. In einer Prognoseanalyse für 2023 gab Gartner an, dass die Verwendung von Beschleunigerchips, die HBM für das KI-Modelltraining integrieren, von 65 Prozent im Jahr 2022 auf voraussichtlich 30 Prozent im Jahr 2027 sinken wird.

Was macht HBM so speziell

HBM ist wie andere Arten von Memory, einschließlich Grafik-Double-Data-Rate (GDDR), die verwendet werden, um eine hohe Bandbreite für grafikintensive Anwendungen bereitzustellen. Aber es unterscheidet sich von diesen Technologien in einigen auffälligen Punkten.

Während HBM und GDDR beide DRAM-Chips verwenden, ist HBM auf der GPU anders positioniert. GDDR-DRAM ist in der Regel auf der Leiterplatte in einem GPU-Kartendesign positioniert, während HBM neben dem Prozessor selbst sitzt. Diese Nähe zum Prozessor ist der Hauptvorteil von HBM und resultiert in einer höheren Geschwindigkeit.

Ein potenzielles Problem können langen Leitungen – die hohe Anzahl an Verbindungen – sein, die der Signalleitung alle Arten von Kapazität hinzufügen und die Signale stark verlangsamen.

Abgesehen von seiner Position relativ zum Prozessor besteht HBM aus DRAM-Chips, die für eine höhere Dichte gestapelt sind, anstatt wie GDDR nebeneinander auf der GPU-Karte platziert zu werden. Diese Stapelarchitektur ist ein schwierigeres Unterfangen für Hersteller. Zunächst einmal ist HBM für die leistungsstärksten Anwendungsfälle ausgelegt und verwendet die neuesten Memory-Technologieknoten, die aufgrund der Nachfrage nur in geringerer Menge verfügbar sind.

Ein weiterer Unterschied ist die Größe der Chips oder Speicherchips des DRAM. HBM kann denselben Chip wie herkömmlicher RAM verwenden, jedoch wird ein deutlich größerer Chip benötigt, um eine vergleichbare Speicherkapazität in Gigabyte zu erreichen.

Der größere Chip ist aufgrund des Trough-Silicon-Via-Prozesses (TSV) erforderlich. Es werden Löcher in die Chips gebohrt, um Platz für dünne elektrische Drähte zu schaffen, die die DRAM-Chips miteinander und dann mit einem Logikchip am unteren Ende des Stapels verbinden, der die Datenübertragungsfunktion verwaltet.

TSV ist keine gängige Verbindungsmethode für andere Chips, die in der Regel mit Drahtbonden hergestellt werden. Die Herstellung der Chips wird dadurch teurer und HBM muss mehr als doppelt so groß sein, um diesen Prozess zu ermöglichen. Der Wafer kostet mehr, wobei weniger als halb so viele Chips produziert werden. Die Herstellung ist nicht nur teurer als die von RAM-Speicher, sondern auch länger. Da mehr Wafer zum Einsatz kommen, ist der HBM-Ertragsverlust entsprechend größer.

Abbildung 1: SK Hynix verwendet TSV, um sein HBM auf einem Prozessor einzubinden.
Abbildung 1: SK Hynix verwendet TSV, um sein HBM auf einem Prozessor einzubinden.

KI braucht Geschwindigkeit

Bei den Gewinnaufrufen im Juni und Juli 2024 betonten alle drei großen HBM-Lieferanten – SK Hynix, Samsung und Micron – die Nachfrage nach HBM und gaben an, dass sie ihre Produktion entweder bereits ausgeweitet haben oder noch ausweiten werden. Micron gab bei der Bekanntgabe seiner Gewinne für das dritte Quartal 2024 bekannt, dass sein HBM bis zum Kalenderjahr 2025 ausverkauft ist. Im Juli berichtete SK Hynix im Rahmen seiner Gewinne für das zweite Quartal 2024 den Investoren, dass die HBM-Verkäufe im Vergleich zum Vorquartal um mehr als 80 Prozent und im Vergleich zum Vorjahreszeitraum um mehr als 250 Prozent gestiegen sind.

Kurz vor der Bekanntgabe der Gewinne von SK Hynix veröffentlichte das Analystenunternehmen TrendForce eine Prognose, wonach die Nachfrage nach hochdichten Produkten und der höhere Preis von HBM dazu beitragen werden, der Memory-Industrie im Jahr 2025 Rekordumsätze zu bescheren. Dies schließt auch andere Memory-Produkte wie DRAM ein.

Im Vergleich zu herkömmlichen DRAMs steigert HBM nicht nur die Bit-Nachfrage, sondern erhöht auch den Durchschnittspreis der Branche. HBM wird voraussichtlich 5 Prozent der DRAM-Bit-Lieferungen und 20 Prozent des Umsatzes im Jahr 2024 ausmachen, so der Bericht von TrendForce.

Die Nachfrage nach HBM wird durch die Nachfrage nach High-End-Grafikprozessoren, insbesondere für den Chiphersteller Nvidia, und den Wunsch nach Geschwindigkeit beim Training von KI-Modellen angetrieben – insbesondere bei Hyperscalern, die KI zu einem Geschäftsmodell machen.

Der HBM-Zug verpasst

Ursprünglich wurde HBM entwickelt, um Speicherengpässe im Hochleistungsrechnen zu beheben. Es wurde in Zusammenarbeit entwickelt, wobei SK Hynix 2013 den ersten HBM-Chip auf den Markt brachte. Im selben Jahr wurde es vom Joint Electron Device Engineering Council, einer Gruppe, die Standards für die Mikroelektronik festlegt, als Industriestandard übernommen.

Heute ist SK Hynix, einer der größten Speicherhersteller der Welt, der führende Hersteller der aktuellen Generation von HBM, HBM3, die das Unternehmen an Nvidia verkauft. Laut einem Marktbericht von IoT Analytics, einem deutschen Analyseunternehmen, aus dem Jahr 2023 über generative KI hat Nvidia den größten GPU-Marktanteil nach Umsatz.

SK Hynix ist derzeit ein führender Hersteller der neuesten Generation von HBM, und Nvidia kauft die neueste Generation von HBM und ist der erste Kunde für die neueste Generation.

SK Hynix setzte sich gegen Samsung, den weltgrößten Speicherhersteller, und Micron, den drittgrößten Speicherhersteller, durch, indem es HBM aggressiver für HPC verfolgt. Zu diesem Zweck investierte SK Hynix einen hohen Betrag in Vorabkosten, ohne die Bedeutung für KI zu kennen. Kein Analystenhaus prognostizierte ein so expansives Wachstum des KI-Markzs für GPU, sodass die Hersteller überracht wurden.

Samsung und Micron gingen zunächst in eine andere Richtung und entwickelten 2011 gemeinsam die Hybrid-Memory-Cube-Technologie für Supercomputer, die ebenfalls Speicherchips stapelte und TSV verwendete. Micron unterstützte die Technologie einige Jahre lang, bevor die Unterstützung eingestellt wurde, um sich auf Technologien wie HBM zu konzentrieren.

Als HBM 2013 erstmals eingeführt wurde, war es ein Nischenprodukt. Die Entscheidung von SK Hynix, sich darauf zu konzentrieren, war ein Zufallserfolg. HBM von SK Hynix wurde auch von GPU-Herstellern qualifiziert, was bedeutet, dass es die Anforderungen ohne Probleme erfüllt. Dadurch liefert dieser Hersteller einenGroßteil dieser Komponenten aus, aber Micron und Samsung werden künftig auch qualifizierte Produkte anbieten.

Die Zukunft von HBM

Prognosen shen allerdings ein Ende der Popularität von HBM, da sich der KI-Markt vom Modelltraining zum Inferenzieren verlagert. Im Moment ist der Markt in einer Phase, in der viele KI-Modelle entwickelt werden, was kurzfristig zu einem ziemlich starken Anstieg in Bezug auf HBM führen wird. Inferenzen werden auf anderen Formen an Memory basieren und dies könnte möglicherweise zu einem Zustrom von mehr maßgeschneiderten Inferenzchips führen.

Inferenz-Workloads sind vergleichsweise weniger intensive Workloads, aber Anwender benötigen eine höhere Anzahl an Servern oder Chips, um diese Workloads auszuführen. Die zukünftigen Verkaufszahlen von HBM sind schwer zu bestimmen und werden wahrscheinlich genauso schwanken wie bei jeder anderen Technologie, die auf Nachfrage und Wettbewerb basiert.

Wenn Hyperscaler sich dafür entscheiden, weiterhin die hochwertigsten GPUs zu kaufen, dann werden sie HBM immer verwenden. Falls hier ein Umdenken geschieht, kann dies den HBM-Markt nachhaltig beeinflussen.

Was die Technologie betrifft, so gehen Experten davon aus, dass sie einem ähnlichen Muster folgen wird wie andere Memory-Typen, wie zum Beispiel DRAM, bei denen die Anbieter zunehmend nach höherer Bandbreite und größerer Dichte streben. Dies zeigt sich daran, dass HBM3E jetzt in Produktion und HBM4 für 2026 geplant ist, wobei die Bandbreite in der nächsten Version von 1 TB/s auf 1,4 TB/s erhöht wird.

Zudem gibt es physische Hürden bei der Skalierung von HBM, darunter das GPU-Design von Nvidia. Nvidias GPUs sind vierseitige Chips, von denen zwei für HBM und die anderen beiden für I/O und Stromversorgung vorgesehen sind. Eine Erhöhung der HBM-Menge pro Einheit könnte eine Neugestaltung der GPU erfordern, aber das ist noch Zukunftsmusik. Letztlich wird es nicht um Leistungseinschränkungen gehen, sondern um verfügbaren Platz für das HBM im System.

Erfahren Sie mehr über Storage Performance