ra2 studio - Fotolia

Was für die GPU-Virtualisierung mit VMware wichtig ist?

Wenn Sie die GPU-Virtualisierung mit VMware planen, müssen Sie einige Aspekte beachten, beispielsweise Anforderungen an die Ressourcen, existierende Hardware und Lizenzoptionen.

Bei VDI-Systemen werden Grafikprozessoren (GPU) virtualisiert, aber auch in den Bereichen Desktop-, Server- und Hochleistungsberechnungen kommen virtuelle GPUs verstärkt zum Einsatz.

Administratoren virtueller Systeme müssen sich darüber im Klaren sein, dass die Virtualisierung einer GPU (Graphic Processing Unit) nicht dasselbe ist wie die Virtualisierung einer CPU oder eines RAM. Entwicklung, Lizenzierung und Bereitstellung unterscheiden sich grundlegend, insbesondere bei der GPU-Virtualisierung mit VMware.

Wenn es um VDI-Systeme (Virtual Desktop Infrastructure) geht, sehen sich Administratoren mit einer lebhaften Debatte über die beste Wahl von I/O- (Input/Output, Eingang/Ausgang), CPU- und Speicherressourcen konfrontiert. Das ist nur logisch, da diese für die Implementierung und den reibungslosen Betrieb einer VDI von entscheidender Bedeutung sind. Der Grafikprozessor hingegen wird oft nicht ausreichend berücksichtigt.

Administratoren sollten beim Aufbau einer virtuellen Desktop-Infrastruktur über den Einsatz einer virtuellen GPU (vGPU) nachdenken. Die wichtigsten Anbieter von vGPU sind Nvidia und AMD, wobei Nvidia bereits seit längerem mit der VMware-Produktfamilie kooperiert.

Wie Sie die Lizenzierung und den Ressourcenbedarf abklären

Obwohl es sich bei einem Grafikprozessor um Hardware handelt, die in der Regel mit einem Hypervisor verbunden ist, ist jeder Grafikprozessor einzigartig. Administratoren können Hardwarekomponenten innerhalb der GPU austauschen und kombinieren. Beispielsweise können sie verschiedene Grafikkartenmodelle im selben VMware-Cluster verwenden, wodurch Administratoren virtuelle Maschinen (VMs) auf verschiedenen Grafikkartenstufen ausführen können, um Leistung, Kosten und Flexibilität zu optimieren.

Jeder Host in diesem Cluster muss jedoch intern die gleichen Grafikkarten verwenden. Während also die Hosts der Administratoren unterschiedliche GPU-Modelle haben können, ist es nicht möglich, unterschiedliche Modelle auf einem Host zu installieren. Das wäre so, als würde man zwei CPUs auf derselben Serverplattform laufen lassen, da das nicht funktioniert.

Für Administratoren bedeutet das, dass sie VMware Distributed Resource Scheduler (DRS) und Hochverfügbarkeitsgruppen gezielt einsetzen müssen, um sicherzustellen, dass ihre Workloads auf den Hosts ausgeführt werden, denen sie zugewiesen sind.

Administratoren können dennoch Workloads von einem Host mit einem bestimmten GPU-Modell auf einen anderen Host mit einem anderen GPU-Modell migrieren. Dazu müssen sie zunächst das Gast-System herunterfahren und sicherstellen, dass ihre Lizenz richtig eingestellt ist. Oder sie verwenden vMotion, um Gäste von bestimmten Hosts auf andere Hosts innerhalb desselben GPU-Modells zu migrieren.

Admins müssen sicherstellen, dass sie über Hosts mit den richtigen GPUs verfügen, um Failover zu ermöglichen, oder besser noch, GPUs auswählen, die eine größere Bandbreite an Workloads unterstützen, um sie für ein gemeinsames Modell zu standardisieren.

Ein Vorteil der gemeinsamen Nutzung von VMware und Nvidia ist die Möglichkeit, bis zu vier Grafikprozessoren pro virtueller Maschine zuzuweisen. Administratoren können auf GPUs der mittleren und oberen Ebene wie Nvidia Tesla T4 oder RTX skalieren, um anspruchsvollere Workloads zu bewältigen, ohne das Budget zu sprengen oder zusätzliche Prozessoren für Mitarbeiter mit geringen Anforderungen kaufen zu müssen.

Dazu müssen Administratoren die Host-Einstellungen ihrer Grafikprozessoren von Shared auf Shared Direct ändern. Andernfalls können die virtuellen Maschinen nicht hochfahren.

Sobald Admins ihre GPUs auf einem bestimmten Satz von Hosts eingerichtet haben, benötigen sie auch eine Lizenz. Dazu gehört eine Softwarelizenz, die es dem Treiber erlaubt, auf die Remote-Funktion der GPUs zuzugreifen. Das bedeutet zwar eine weitere Lizenz, die verwaltet werden muss, aber die Vorteile für Administratoren sind beträchtlich.

Die Funktionen der virtuellen Grafikprozessoren werden durch die Lizenz und nicht durch den Treiber bestimmt. Das bedeutet, dass Administratoren eine spezielle Lizenz benötigen, um bestimmte Funktionen zu aktivieren oder zu deaktivieren. Das hat den Vorteil, dass die Einstellungen nicht ständig manuell an die Bedürfnisse angepasst werden müssen.

Wenn Administratoren mehrere GPUs verwenden, benötigen sie auch eine Lizenz wie NVLink oder NVLink Switch von Nvidia, um diese zu verbinden. Admins können keine Komponenten von mehreren GPUs zusammenzustellen und dann ihren VMs zuweisen. Die zugewiesenen Prozessoren müssen vollständig sein.

Weitere Tipps für die vGPU-Bereitstellung

vGPUs verwenden dieselbe Technologie wie Hypervisoren und bieten daher dieselben Sicherheitsvorteile. Auch wenn die Videosicherheit für einige Administratoren keine Priorität darstellt, sieht die Situation anders aus, wenn Grafikprozessoren für Hochleistungsberechnungen, Deep Learning und künstliche Intelligenz (KI) eingesetzt werden.

Nicht zuletzt sollten Administratoren bedenken, dass sich die Hardware, auf der sie ihre GPUs hosten, höchstwahrscheinlich ändern wird. GPUs leisten Schwerstarbeit und benötigen daher eine ideale Grundlage für ihre Leistung. Hardwareplattformen, die nicht für GPUs optimiert sind, bieten nicht den Platz, die Kühlung und die Leistung, um mehrere Grafikkarten zu unterstützen.

Admins müssen bei der Auswahl ihrer Hardwareplattform auf die Zertifizierungen von VMware und Nvidia achten und sicherstellen, dass sie die richtigen Karten für ihre Anwendungsfälle sowie die richtigen Strom- und Kühlsysteme für ihre Zwecke ausgewählt haben.

Die Herausforderungen bei der Virtualisierung von GPUs sind nicht neu, sie sind Variationen der bekannten Probleme bei der Virtualisierung von Rechenleistung. Wenn Administratoren die zu erwartenden Probleme im Voraus kennen, können sie diese erfolgreich bewältigen.

Erfahren Sie mehr über Data-Center-Infrastruktur