GPU as a Service bietet Vorteile, die IT-Abläufe optimieren. Berücksichtigen Sie zudem den Speicherbedarf sowie die damit verbundenen Best Practices, Herausforderungen und Tools.
GPUs der Enterprise-Klasse können eine erhebliche Investition darstellen und erfordern für ihren Betrieb eine beträchtliche Stromversorgung und Kühlleistung. Aus diesem Grund wenden sich viele Unternehmen GPU-as-a-Service-Lösungen zu, um ihre großen Datenmengen zu verarbeiten.
Da immer mehr Unternehmen künstliche Intelligenz (KI) und fortschrittliche Analysen einsetzen, steigt die Nachfrage nach Hochleistungsrechnern, die auf GPUs basieren. IT-Teams müssen jedoch determinieren, wie sie den für GPUaaS-Initiativen erforderlichen Speicher implementieren und warten können.
GPUaaS ist ein Cloud-basiertes Angebot, das GPUs virtualisiert und als bedarfsgerechte, skalierbare Dienste zur Verfügung stellt, die Benutzer über das Internet oder ein privates Netzwerk nutzen können, ähnlich wie andere Arten von Cloud-Diensten. GPUaaS bietet Unternehmen die Möglichkeit, Hochleistungsrechner zu nutzen, ohne in teure physische Infrastruktur investieren zu müssen. Kunden können GPUaaS auch in ihren privaten Clouds implementieren.
Viele Public-Cloud-Anbieter bieten mittlerweile GPUaaS-Funktionen an, die mehrere Vorteile mit sich bringen. Kunden können auf Rechenleistung zugreifen, ohne dass Verwaltungsaufwand oder längere Verzögerungen entstehen. Der Cloud Service Provider (CSP) verwaltet die Systeme, hält sie am Laufen und aktualisiert sie bei Bedarf. Benutzer können die Dienste nach oben und unten skalieren und sich von jedem Ort mit Internetverbindung aus mit den Diensten verbinden, was zu einer höheren Produktivität und insgesamt mehr Flexibilität führt.
Trotz dieser Vorteile müssen IT-Teams die Daten sicher speichern und gewährleisten, dass sie dem GPU-Dienst bei Bedarf unabhängig von der Datenmenge zur Verfügung stehen, und die Leistung optimieren, während sie gleichzeitig das Risiko für sensible Informationen minimieren.
Best Practices für GPUaaS-Speicher
Bei der Einrichtung von Storage für GPUaaS arbeiten IT-Teams häufig mit Daten, die sich an mehreren Standorten befinden. Diese Komplexität kann es für die IT-Verantwortliche schwierig machen, zu wissen, wie sie bei der Planung ihrer GPUaaS-Speicher- und Datenstrategien vorgehen sollen. Hier stellen wir einige bewährte Verfahren vor.
1. Verstehen Sie Ihre Speicher- und Datenanforderungen
Bevor Sie mit der Umnutzung von Hardware oder der Anmeldung für neue Cloud-Dienste beginnen, sollten Sie sich über die Ziele Ihres Projekts im Klaren sein, insbesondere in Bezug auf den Speicher für Ihre GPUaaS-Initiative. Machen Sie sich bewusst, welche Probleme Sie lösen möchten und welche Erwartungen Sie insgesamt an das Projekt haben. Möglicherweise müssen Sie Service Level Agreements (SLA) definieren, die Leistung, Verfügbarkeit, Sicherheit oder andere Ergebnisse garantieren.
Bei der Einrichtung von Speicher für GPUaaS arbeiten IT-Teams häufig mit Daten, die sich an mehreren Standorten befinden. Diese Komplexität kann es für die Teams schwierig machen, zu wissen, wie sie bei der Planung ihrer GPUaaS-Speicher- und Datenstrategien vorgehen sollen.
Seien Sie bei der Definition Ihrer Speicher- und Datenanforderungen so konkret wie möglich, insbesondere in Bezug auf die Leistung. Sie müssen wissen, wie viel Durchsatz Ihr Speicher und Ihr Netzwerk bereitstellen sollten und welche Latenz Ihr Unternehmen tolerieren kann. Außerdem müssen Sie wissen, wie viele Daten Sie voraussichtlich kurz- und langfristig speichern werden und wie Ihr Unternehmen auf diese Daten zugreifen und sie nutzen wird.
2. Identifizieren und bewerten Sie bestehende Systeme und Abläufe
Sammeln Sie Details zu den derzeit verwendeten Speichersystemen und -diensten, deren Kapazitäten und Leistungsfähigkeit, deren Konfiguration zur Erleichterung von Datenübertragungen und systemübergreifender Kommunikation sowie zu den Netzwerken, die diese Übertragungen und Kommunikation unterstützen. Sie sollten auch wissen, wie diese Systeme und Dienste gewartet werden, einschließlich der Tools, die die Verwaltung und Interoperabilität erleichtern.
Stellen Sie fest, ob Sie eine dieser Ressourcen zur Unterstützung der GPUaaS-Initiative nutzen können. Wenn ja, müssen Sie wissen, was erforderlich ist, um sie für GPUaaS umzufunktionieren, und welche zusätzlichen Ressourcen möglicherweise benötigt werden, um die bestehende Infrastruktur zu erweitern. Bewerten Sie die Auswirkungen, die die Umfunktionierung auf bestehende Systeme oder Abläufe haben könnte.
3. Identifizieren und bewerten Sie bestehende Daten-Workflows
Identifizieren Sie Ihre Datenquellen, die Funktionsweise Ihrer Datenpipelines, Ihre Speicherorte sowie die Menge und Art der Daten. Untersuchen Sie Ihre Extraktions-, Transformations- und Ladevorgänge, um zu verstehen, ob und wie die Daten verändert werden. Wenn Sie bereits über eine solide Datenmanagement- und Governance-Strategie verfügen, sollten viele dieser Informationen bereits verfügbar sein.
Sobald Sie sich ein vollständiges Bild von Ihren Daten-Workflows gemacht haben, können Sie beurteilen, ob Sie diese in irgendeiner Weise modifizieren oder nutzen können, um sie an Ihre GPUaaS-Bemühungen anzupassen. Bewerten Sie, wie sich diese Modifikationen möglicherweise auf Ihre Speicherinfrastruktur sowie auf andere Systeme oder Abläufe auswirken könnten.
4. Planen Sie die GPUaaS-Speicher- und Datenstrategie
Entwickeln Sie einen umfassenden Plan, der festlegt, welche Systeme und Dienste hinzugefügt oder umfunktioniert werden sollten, um die GPUaaS-Workflows zu unterstützen. Zu diesem Zweck müssen Sie die Art des Speichers, das Speicherformat und den Speicherort der Daten festlegen. Berücksichtigen Sie dabei die Anforderungen an Bandbreite und Latenz sowie Fragen der Skalierbarkeit, Verfügbarkeit und Fehlertoleranz.
Untersuchen Sie verschiedene Möglichkeiten, wie Sie Ihre Umgebung optimieren können. Sie könnten beispielsweise ein verteiltes oder paralleles Dateisystem verwenden sowie Storage Tiering oder Caching implementieren. Optimieren Sie Ihre Abläufe auch auf andere Weise, zum Beispiel mit Nvidias GPUDirect Storage, durch Anpassen Ihrer PCIe-Einstellungen oder durch Verwendung von Speicherlaufwerken, die NVMe oder NVMe-oF unterstützen. Der Planungsprozess sollte sorgfältige Kostenbewertungen umfassen, bei denen sowohl Return of Investment (ROI) als auch Total Cost of Ownership (TCO) analysiert werden. Erstellen Sie schließlich eine detaillierte Rollout-Strategie, die Sie befolgen können, wenn Sie bereit sind, den nächsten Schritt zu gehen.
5. Planen Sie die Daten-Workflow-Strategie
Legen Sie fest, wo Ihre Daten gespeichert werden sollen, und berücksichtigen Sie dabei Faktoren wie Sicherheit, Datenschutz, Kosten und Leistung, da diese mit der Nähe der Daten zur GPUaaS-Plattform zusammenhängen. Entscheiden Sie, ob Daten vorverarbeitet werden sollen, und wenn ja, wann und wo dies geschehen soll.
Die Planung Ihres Workflows kann Ihnen dabei helfen, den richtigen Speicherplatz bereitzustellen und sich besser auf Datenmigrations- und Synchronisierungsvorgänge vorzubereiten. Sobald Sie eine Workflow-Strategie festgelegt haben, testen Sie Ihre Vorgänge gründlich, um sicherzustellen, dass sie optimale Ergebnisse erzielen.
6. Integrieren Sie Datenmanagement und Governance
Neu erworbene oder umfunktionierte Speicher und neue Datenquellen sollten Ihre Fähigkeit, die Daten während ihres gesamten Lebenszyklus zu verwalten, nicht beeinträchtigen, unabhängig davon, wo sich die Daten befinden oder ob sie in einem zentralen Repository wie einem Data Lake gespeichert sind. Sie sollten in der Lage sein, Ihre Daten zu katalogisieren und ihre Herkunft zu verfolgen, auch wenn Sie GPUaaS unterstützen.
Geeignete Maßnahmen zum Schutz der Daten sind unerlässlich. Dazu können die Verschlüsselung ruhender (Data at Rest) und übertragener Daten (Data in Flight), die Durchsetzung granularer Zugriffskontrollen, die Implementierung von Identitätsmanagement oder die Bereitstellung von Netzwerksegmentierung gehören. Stellen Sie gleichzeitig sicher, dass Ihre Speicher- und Datenverwaltungsstrategien den geltenden Vorschriften entsprechen und dass Sie einen Disaster-Recovery-Plan (DRP) implementiert haben, um die Geschäftskontinuität (Business Continuity, BC) zu gewährleisten.
7. Überwachen und optimieren Sie Ihre Systeme kontinuierlich
Ihre Management-Tools sollten Ihnen einen vollständigen Überblick über Ihre Speicher- und Datenumgebungen bieten. Sie sollten außerdem Echtzeit-Warnmeldungen und Benachrichtigungen unterstützen und die Erstellung umfassender Berichte ermöglichen, die leicht mit den wichtigsten Akteuren geteilt werden können.
Ihr Unternehmen sollte in der Lage sein, schnell auf die von Ihren Tools gesammelten Informationen zu reagieren, damit Sie Sicherheitsbedrohungen, anomales Verhalten, Leistungsprobleme, Dienstunterbrechungen oder andere Probleme so schnell und effizient wie möglich angehen und beheben können. Eine kontinuierliche Überwachung kann Ihnen auch dabei helfen, Kosten zu verfolgen und zu optimieren sowie die Einhaltung geltender Vorschriften sicherzustellen.
Herausforderungen bei der Speicherung mit GPUaaS
Trotz der Vorteile kann die Einrichtung von Speicher für GPUaaS mit einer Reihe von Herausforderungen verbunden sein, darunter die folgenden:
Komplexität des Betriebs. Die Unterschiede zwischen Tools, Standards, Plattformen und Abläufen zu berücksichtigen, kann schwierig und zeitaufwändig sein und erfordert oft fortgeschrittene Fähigkeiten und Fachkenntnisse. Die mangelnde Transparenz in Public-Cloud-Umgebungen kann diese Komplexität noch erhöhen.
Leistung und Zuverlässigkeit. Speichersysteme und Netzwerke können manchmal Schwierigkeiten haben, mit den Anforderungen einer GPUaaS-Plattform Schritt zu halten, und müssen kontinuierlich überwacht und optimiert werden, um die erforderliche Leistung aufrechtzuerhalten.
Datenlokalität und -bewegung. Die Speicherung von Daten an einem anderen geografischen Standort als den GPU-Servern erhöht die Wahrscheinlichkeit langsamerer Datenübertragungen und höherer Latenzzeiten. Planen Sie den Standort und die Bewegung von Daten sorgfältig, um die Wahrscheinlichkeit von Engpässen zu verringern. In einigen Fällen müssen Sie die Daten möglicherweise auf derselben Cloud-Plattform wie die GPU-Server speichern, um die erforderliche Leistung sicherzustellen.
Datenmanagement und Governance. Die Verwaltung großer Datenmengen über mehrere Umgebungen hinweg kann es erschweren, die Daten ordnungsgemäß zu verwalten und die erforderliche Governance sicherzustellen. Eine schlechte Governance kann das Risiko von Problemen mit der Datenintegrität, Sicherheit oder Compliance erhöhen.
Skalierbarkeit und Kapazitätsmanagement. Wenn Ihre GPUaaS-Workloads unerwartet wachsen und schwanken, sind die Speichersysteme möglicherweise nicht in der Lage, die erforderliche Leistung und Kapazität bereitzustellen, insbesondere bei großen Datensätzen. Häufige Migrationen und Synchronisierungen können dieses Problem noch verschärfen. Ihre Speichersysteme und Verbindungsnetzwerke müssen auf Skalierbarkeit ausgelegt sein.
System- und Datentransparenz. Ohne die erforderliche Transparenz kann es in einem Unternehmen zu Leistungsproblemen oder Betriebsstörungen kommen oder es kann seine Daten Sicherheitsrisiken und Compliance-Verstößen aussetzen. IT-Teams benötigen die erforderlichen Tools, um ihre Systeme zu überwachen und Echtzeit-Einblicke zu gewinnen, mit denen sie Probleme verfolgen und beheben können, bevor sie sich auf den Betrieb auswirken.
Fähigkeiten und Fachwissen. Wenn nicht in Fähigkeiten investiert wird – sei es durch Schulungen, die Hinzuziehung von Experten oder andere Maßnahmen –, kann dies möglicherweise Auswirkungen auf die Leistung, den Betrieb, die Sicherheit, die Compliance und die Datenzugänglichkeit haben. Die Implementierung von Speicher für GPUaaS und der Dateninfrastruktur zur Unterstützung dieser Initiative kann ein komplexes Unterfangen sein, bei dem eine Vielzahl von beweglichen Teilen aufeinander abgestimmt werden müssen.
Kostenmanagement. Je stärker die Daten verteilt sind, desto schwieriger wird es, die Kosten zu verwalten und zu optimieren. Das Problem wird noch größer, wenn Ihr Unternehmen mit wachsenden Datenmengen arbeitet und diese auf unterschiedliche Weise verwalten und speichern muss. Gleichzeitig müssen IT-Teams kontinuierlich den hohen Durchsatz und die geringe Latenz liefern, die GPUaaS erfordert. Berücksichtigen Sie die Kostenoptimierung bereits in der frühen Planungsphase des Projekts, wenn Sie Optionen wie mehrstufige Speicher, Laufwerkstypen und Speicherformate in Betracht ziehen.
Wie reagieren die Anbieter?
Nvidia ist mit seinen GPUs der Enterprise-Klasse, die in Rechenzentren von Unternehmen und großen Hyperscalern weit verbreitet sind, führend in der GPUaaS-Bewegung. Viele der Cloud Provider, die GPUaaS anbieten, nutzen Nvidia-GPUs als Rückgrat für ihre Dienste. Google Cloud, Rackspace, Hyperstack, Liquid Web und Lambda Labs sind nur einige der Anbieter, die virtuelle GPU-Dienste auf Basis der Nvidia-Infrastruktur anbieten.
Um die GPU-Konnektivität zu erleichtern, bietet Nvidia GPUDirect Storage an, eine Datentechnologie, die es lokalen und Remote-Speichersystemen ermöglicht, über branchenübliche Protokolle wie NVMe oder NVMe-oF direkt mit dem GPU-Speicher zu kommunizieren. GPUDirect Storage ermöglicht es einer Direct-Memory-Access-Engine (DMA), Daten in den GPU-Speicher zu verschieben oder aus diesem zu entfernen, ohne dass die CPU benötigt wird.
Abbildung 1: Die Unterschiede zwischen CPUs, GPUs und DPUs im Kurzüberblick.
Nvidia bietet auch virtuelle GPU-Software (vGPU) zur Virtualisierung von Nvidia-GPUs und deren gemeinsame Nutzung über mehrere virtuelle Maschinen (VMs) hinweg an. So kann beispielsweise ein IT-Team VMware Cloud Director in Verbindung mit der vSphere-Plattform und der vGPU-Software von Nvidia verwenden, um eine GPUaaS-Umgebung für sein Unternehmen zu schaffen.
Lenovo bietet GPUaaS-Dienste als Teil seines TruScale-Infrastrukturmodells an, wodurch es möglich ist, Kunden GPU-Dienste nach Bedarf bereitzustellen. TruScale verwendet Nvidia-GPUs wie die H100 und L40S. Dell und HPE sind ebenfalls Partnerschaften mit Nvidia eingegangen, um ähnliche Dienste anzubieten, die es Unternehmen ermöglichen, GPUaaS in ihre privaten Clouds zu integrieren. Wie Lenovo fördern auch Dell und HPE ihre Bemühungen, KI-Computing in Unternehmen zu etablieren.
Nvidia-GPUs spielen auch eine Rolle in den neuesten Produkten von Scan Computers, einem Anbieter von GPU-beschleunigten KI-Computing-Produkten. Das Unternehmen gab kürzlich bekannt, dass es mit Peak:AIO und Micron Technology zusammengearbeitet, um eine Reihe von KI-Datenservern anzubieten.
Peak:AIO ist eine softwaredefinierte Speicherplattform, die für die GPU-Nutzung optimiert ist. Die Software nutzt die GPUDirect Storage-Technologie von Nvidia, um bis zu 10 mit Nvidia-GPUs konfigurierte Datenserver zu unterstützen. Scan Computers hat seine Peak:AIO-Systeme ausgiebig mit einer Vielzahl von Nvidia-zertifizierten Serverarchitekturen getestet, darunter DGX, HGX und EGX.
GPUaaS: Das Wichtigste auf einen Blick
Definition: GPU-as-a-Service (GPUaaS) stellt virtualisierte GPUs bedarfsgerecht und skalierbar über Cloud- oder Private-Cloud-Umgebungen bereit.
Vorteile:
Keine hohen Investitionskosten in Hardware
Flexible Skalierung und ortsunabhängiger Zugriff
Betrieb, Wartung und Updates durch den Anbieter
Herausforderungen:
Speicher- und Datenmanagement (Durchsatz, Latenz, Governance)
Komplexität bei Integration und Workflows
Kostenkontrolle bei wachsendem Datenvolumen
Bedarf an Fachwissen und spezialisierten Tools
Best Practices:
Anforderungen klar definieren
Bestehende Systeme und Workflows prüfen
Speicher- und Datenstrategie sorgfältig planen
Datenmanagement und Sicherheit integrieren
Systeme kontinuierlich überwachen und optimieren
Markt und Anbieter: Hyperscaler (AWS, Google Cloud, Azure) & Spezialanbieter (zum Beispiel Lambda Labs, Hyperstack).