Elnur - stock.adobe.com

Was muss Hardware für KI, Machine und Deep Learning können?

KI-, Machine- und Deep-Learning-Infrastruktur hat spezifische Hardwareanforderungen. In diesem Artikel erklären wir, welche das sind und wie HCI zu einem High-Density-System passt.

Viele Unternehmen sehen sich mit einer Flut an Daten konfrontiert. Ihre gegenwärtige Technik im Rechenzentrum muss einen endlosen Strom an Telemetrie aus Maschinen, Anwendungen und Sensoren laufend verarbeiten und analysieren und hat damit häufig Schwierigkeiten. Gerade unstrukturierter Daten haben sich für traditionelle Informationssysteme, die auf strukturierten Datenbanken basieren, als besonders herausfordernd erwiesen.

In der Folge entwickelten Anbieter neue Algorithmen auf der Grundlage des Machine und Deep Learning (ML und DL). Um diese anzuwenden, müssen Unternehmen jedoch erst Systeme und Infrastruktur anschaffen, die für maschinelles Lernen, Deep Learning und KI-Workloads (künstliche Intelligenz) geeignet sind.

Das Interesse von Unternehmen and KI-Anwendungen ist sprunghaft angestiegen. Das liegt an der Verknüpfung von geometrisch expandierenden unstrukturierten Datensätzen, umfangreicher Forschung im Bereich des Machine und Deep Learnings sowie exponentiell leistungsfähigerer Hardware für die Parallelisierung und Beschleunigung der zugehörigen Workloads. IDC prognostiziert, dass KI bis 2024 weit verbreitet sein und von drei Vierteln aller Organisationen genutzt wird, wobei 20 Prozent der Arbeitslasten und 15 Prozent der Unternehmensinfrastruktur auf KI-basierte Anwendungen entfallen.

KI-Anwendungen sind ressourcenhungrig

Unternehmen werden viele dieser Anwendungen in der Cloud aufbauen und dabei ML- und DL-Dienste wie AWS SageMaker oder Azure Cognitive Services nutzen. Doch das ist nur eine Option: Die gewaltige Datenmenge, die für das Training und den Betrieb solcher Algorithmen erforderlich ist und die hohen Kosten für Transfers zur und Speicher in der Cloud, zusammen mit dem Bedarf für Echtzeitergebnisse bedeuten, dass viele KI-Systeme von Unternehmen auf privaten, dedizierten Systemen laufen müssen.

Historische Daten für das AI- und ML-Modelltraining und ständig eingehende Datenströme für das Überarbeiten von Modellen sowie prädiktive Analysen belegen Unsummen an Speicherkapazität. Datensätze für künstliche Intelligenz können Hunderte von Terabyte bis Petabyte erreichen und liegen typischerweise in unstrukturierten Formaten wie Text, Bild, Audio und Video vor, umfassen aber auch semistrukturierte Inhalte wie Web-Clickstreams und Systemprotokolle. Aus diesem Grund eignen sich für diese Daten Objektspeicher oder NAS-Dateisysteme (Network Attached Storage).

Bei der Vorbereitung auf eine Zukunft mit verstärktem KI-Einsatz muss sich die IT mit vielen Architektur- und Bereitstellungsoptionen auseinandersetzen. Dazu gehören vor allem das Design und die Spezifikation von KI-beschleunigten Hardware-Clustern. Eine vielversprechende Option sind aufgrund ihrer Dichte, Skalierbarkeit und Flexibilität hyperkonvergente Infrastruktursysteme (hyper-converged Infrastructure, HCI). Hardware, die spezifisch für den Betrieb von KI-Anwendungen designt wurde, weist häufig viele Gemeinsamkeiten mit hyperkonvergenter Hardware auf.

KI-Anforderungen und Hardwarekernelemente

Algorithmen für Machine und Deep Learning benötigen Daten zum Lernen. Das Auswählen, Erfassen und Vorverarbeiten dieser Daten mit Filtern, Kategorien und Merkmalsextraktion, ist elementar für die Genauigkeit und den Aussagewert der Ergebnisse eines Modells. Daher sind die Datenaggregation – also das Konsolidieren von Daten aus mehreren Quellen – und der Speicher die zentralen Elemente, bei denen KI-Anwendungen besondere Ansprüche an die IT-Infrastruktur stellen.

Die Ressourcen für Speicher und Rechenleistung skalieren in der Regel nicht in gleichem Maße. Deshalb sollte hier die Wahl eher auf Systeme fallen, bei denen sich beide entkoppelt voneinander erweitern lassen, wobei lokaler Speicher für einen KI-Berechnungsknoten groß und schnell genug sein sollte, um einen Algorithmus zu bedienen.

Beliebte Infrastruktur für maschinelles Lernen und KI-Anwendungsfälle

Die meisten KI-Systeme laufen auf Linux-VMs (virtuelle Maschine) oder als Docker-Container. Tatsächlich sind die meisten populären KI-Entwicklungsframeworks und viele Beispielanwendungen als vorgefertigte Container-Images von Nvidia und anderen Anbietern erhältlich. Beliebte Anwendungen umfassen:

  • Maschinelles Sehen (Machine Vision) wie Bildklassifizierung, Objekterkennung (entweder in Bildern oder Videos), Bildsegmentierung und Bildrestaurierung,
  • Verarbeitung von Sprache und natürlicher Sprache (Natural Language Processing, NLP), Spracherkennung und Sprachübersetzung,
  • Text-zu-Sprache-Synthese,
  • Systeme für Empfehlungen, die Bewertungen und vorgeschlagene, personalisierte Inhalte oder Produkte auf der Grundlage früherer Benutzeraktivitäten und Referenzen bereitstellen,
  • Inhaltsanalyse, Filter und Moderation, und
  • Mustererkennung und Anomalieerkennung.

Diese finden in einer Vielzahl von Branchen Anwendung, zum Beispiel:

  • Betrugsanalyse und automatisierte Handelssysteme für Finanzdienstleistungsunternehmen,
  • Online-Personalisierung im Einzelhandel und Produktempfehlungen,
  • Überwachungssysteme für physische Sicherheit für Unternehmen, und
  • geologische Analysen für die Ressourcengewinnung durch Gas-, Erdöl- und Bergbauunternehmen.

Einige Anwendungen, wie zum Beispiel das Aufspüren von Anomalien in der Cybersicherheit und Automatisierung im IT-Betrieb (AIOps), erstrecken sich über verschiedene Branchen, wobei KI-basierte Funktionen in verschiedene Verwaltungs- und Überwachungsprodukte integriert sind.

Algorithmen für Machine und Deep Learning erfordern eine große Anzahl von Matrix-Multiplikations- und Akkumulations-Gleitkommaoperationen. Sie können Matrixberechnungen parallel durchführen. In dieser Hinsicht ähneln ML und DL Grafikfunktionen wie Pixelschattierung und Raytracing, die in Grafikprozessoren (Graphics Processing Unit, GPU) schneller ablaufen.

Im Gegensatz zu CGI-Grafiken erfordern ML- und DL-Berechnungen jedoch oft keine doppelte (64-Bit) oder einfache (32-Bit) Genauigkeit. Das ermöglicht eine weitere Leistungssteigerung, indem die Anzahl der in den Berechnungen verwendeten Fließkomma-Bits verringert wird. Während die frühe Deep-Learning-Forschung für fast ein Jahrzehnt handelsübliche GPUs verwendet hat, gibt es mittlerweile separate Produktlinien von GPUs für Rechenzentren, zum Beispiel von Nvidia, die auf wissenschaftliche und KI-Workloads zugeschnitten sind.

Abbildung 1: Die interne Logik und das physische Design eines typischen KI-Servers
Abbildung 1: Die interne Logik und das physische Design eines typischen KI-Servers

Systemanforderungen und Komponenten

KI-Workloads stellen also an verschiedene Rechenzentrumskomponenten besondere Ansprüche. Diese sind:

  • CPU. Die CPU ist verantwortlich für den Betrieb des VM- oder Container-Subsystems, das Verteilen von Code an GPUs und das Management von E/A (Eingabe/Ausgabe, Input/Output, I/O). Aktuelle Produkte verwenden einen skalierbaren Xeon-Platin- oder -Gold-Prozessor der zweiten Generation, wobei Systeme mit AMD Epyc-CPUs der zweiten Generation (Rom) immer beliebter werden. CPUs der aktuellen Generation verfügen über zusätzliche Funktionen, die ML- und DL-Inferenzoperationen erheblich beschleunigen, wodurch sie für KI-Workloads, deren Modelle auf GPUs trainiert wurden, geeignet sind.
  • GPU. Die GPU führt das Training für ML- und DL-Modelle durch und (häufig) Inferenzoperationen, das heißt das automatisierte Kategorisieren von Daten auf der Grundlage maschinellen Lernens. Typische Modelle für dieses Einsatzgebiet sind Nvidia P100 (Pascal), V100 (Volta) oder A100 (Ampere) Grafikprozessoren für Training und V100, A100 oder T4 (Turing) für Inferenzoperationen. AMD hat mit seinen Instinct-GPUs (Vega) bei Systemanbietern noch keine große Marktdurchdringung erreicht; mehrere OEMs (Original Equipment Manufacturer, Originalzubehörhersteller) bieten jedoch inzwischen Produkte mit 1HE-4HE-Format (Höheneinheit, Unit, U) oder 21-Zoll-Formfaktoren für Open Compute Project an.
  • Arbeitsspeicher. KI-Operationen werden vom GPU-Speicher ausgeführt, so dass der Systemspeicher normalerweise kein Engpass ist und Server in der Regel über 128 bis 512 GB DRAM verfügen. Aktuelle Grafikprozessoren verwenden eingebettete HBM-Module (High-Bandwidth Memory), 16 oder 32 GB große bei Nvidia V100, 40 GB bei A100, die durch diese hohe Bandbreite viel schneller als herkömmliches DDR4- oder GDDR5-DRAM sind. So kann ein System mit 8 GPUs ein Aggregat von 256 GB oder 320 GB HBM für KI-Operationen haben.
  • Netzwerk. Da KI-Systeme zur Skalierung der Leistung häufig in Clustern zusammengefasst werden, verfügen sie in der Regel über mehrere Ethernet-Schnittstellen mit 10 Gbit/s oder mehr. Einige haben auch InfiniBand- oder dedizierte GPU-Schnittstellen (NVLink) für die Kommunikation innerhalb des Clusters.
  • Storage. Das Verschieben von Daten zwischen den Speicher- und Compute-Subsystemen ist ein weiterer Leistungsengpass für AI-Workloads. Daher verwenden die meisten Systeme eher lokale NVMe-Laufwerke als SATA-SSDs.

GPUs waren das Herzstück der meisten KI-Infrastrukturen, und Nvidia hat deren DL-Leistung durch Funktionen wie Tensor Cores, Multiinstanz-GPU (zur parallelen Ausführung mehrerer Prozesse und NVLink-GPU-Verbindungen) erheblich verbessert.

Der gestiegene Bedarf an Geschwindigkeit und Effizienz hat jedoch eine Vielzahl neuer KI-Prozessoren hervorgebracht, wie zum Beispiel Googles TPU, Intel Habana AI-Prozessor, Tachyum-Universalprozessor, Wave AI SoC oder Lösungen auf FPGA-Basis (Field-Programmable Gate Array) wie Microsoft Brainwave, eine tiefgehende Lernplattform für KI in der Cloud.

Unternehmen können jede hyperkonvergente Infrastruktur oder jedes System mit hoher Dichte für die KI nutzen, indem sie die richtige Konfiguration und die richtigen Systemkomponenten auswählen.

Erfahren Sie mehr über Data-Center-Infrastruktur

ComputerWeekly.de
Close