Andreas Prott - stock.adobe.com

Wie die Neocloud die Netzwerkkonnektivität beeinflusst

Die steigende Nachfrage nach KI-optimierter Rechenleistung treibt den Aufstieg der Neocloud voran. Doch kann auch die Transportinfrastruktur mit diesem Tempo Schritt halten?

Auf einen Blick

  • Was sind Neoclouds? Das sind spezialisierte Anbieter für GPU-as-a-Service, die sich im Gegensatz zu Hyperscalern auf KI- und Machine-Learning-Workloads fokussieren.
  • Technologischer Vorteil: Nutzung von Dual-Netzwerken (z. B. InfiniBand) für extrem schnellen Ost-West-Datentransfer (GPU-zu-GPU) ohne Latenz.
  • Wirtschaftlichkeit: 50 bis 70 Prozent Kosteneinsparung bei KI-Aufgaben im Vergleich zu herkömmlichen Public Clouds.
  • Herausforderung: Erhöhte Komplexität bei der Netzwerkintegration, der Multi-Cloud-Verwaltung und beim Aufbau von Sicherheitsstandards.

    Mit dem Vormarsch der KI steigt der Bedarf an spezialisierter Verarbeitung mit geringer Latenz, um Bilder, Videos und 3D-Grafiken schnell zu erzeugen und darzustellen. GPUs, die Billionen mathematischer Operationen pro Sekunde ausführen können, sind für die Entwicklung und den Einsatz KI-gesteuerter Anwendungen von grundlegender Bedeutung. Die weltweite Nachfrage nach GPU-zentriertem Computing hat jedoch bereits die Kapazitäten der Hyperscaler überstiegen. Deshalb sind spezialisierte Anbieter aufgetreten, die GPU-as-a-Service-Plattformen bereitstellen. Diese Plattformen sind als Neoclouds bekannt.

    Bekannte Beispiele für solche aufstrebenden Neocloud-Provider sind Unternehmen wie CoreWeave, Lambda Labs oder Together AI, die sich durch ihren exklusiven Fokus auf Hochleistungsrechnen schnell Marktanteile sichern konnten.

    Neoclouds bieten hochleistungsfähige GPU-Rechenleistung, die für KI- und Machine-Learning-Workloads unerlässlich ist. Diese spezialisierten Clouds verfügen über dichte GPU-Cluster und Verbindungen mit extrem geringer Latenz, um eine beschleunigte und energieeffiziente Verarbeitung von KI- und ML-Aufgaben zu ermöglichen. Über Neoclouds können Unternehmen On-Demand-GPU-Cluster – in der Regel Bare-Metal-Cluster – nutzen, ohne die umfangreichen Zusatzdienste in Anspruch nehmen zu müssen, die mit Verträgen bei Hyperscalern verbunden sind.

    Diese GPU-Cluster können am Edge, also näher an den Orten der Inhaltserstellung und -nutzung, platziert werden, um Latenzprobleme zu verringern. Die Anbieter erkennen die Chancen im KI-Bereich als bedeutende Umsatzquelle und prognostizieren ein Wachstumspotenzial für Konnektivitätslösungen in diesem Sektor. Laut Gartner werden Neocloud-Anbieter bis 2030 einen Marktanteil von 20 Prozent am 267 Milliarden US-Dollar (234 Milliarden Euro) schweren KI-Cloud-Markt erobern.

    Den Design-Quotienten steigern: Netzwerkarchitektur für KI

    Wie unterscheidet sich also eine Neocloud-Verbindungsarchitektur von einer herkömmlichen Cloud-Infrastruktur? Die zur Unterstützung von KI-Workloads erforderliche Rechenleistung erfordert eine Netzwerkverbindung mit extrem hoher Bandbreite und geringer Latenz.

    Zur Unterstützung von GPU-Clustern nutzen Neocloud-Anbieter häufig einen Dual-Netzwerk-Ansatz mit folgenden Komponenten:

    • Ein herkömmliches Front-End-Ethernet-Netzwerk für den Benutzerdatenverkehr.
    • Ein zweites, hochleistungsfähiges Backend-Fabric-Netzwerk.

    Dieses ist ausschließlich für die GPU-zu-GPU-Kommunikation vorgesehen und ermöglicht es KI-Clustern, große Mengen interner Datenströme zu verarbeiten. Diese Konfiguration gewährleistet eine optimale Leistung, ohne die Engpässe zu verursachen, die in einem herkömmlichen Cloud-Netzwerk auftreten.

    Neoclouds nutzen häufig Netzwerk-Fabrics wie InfiniBand, da diese Technologie im Vergleich zu herkömmlichen Ethernet-Verbindungen in Rechenzentren eine höhere Bandbreite und geringere Latenz bietet und somit die parallele Verarbeitung von GPU-Workloads unterstützt. Diese Fabric beseitigt den Netzwerk-Overhead, der umfangreiche KI-Trainingsaufgaben behindern kann.

    Im Gegensatz zu herkömmlichen Cloud-Netzwerken, die für den Nord-Süd-Client-Server-Verkehr ausgelegt sind, müssen Neocloud-Verbindungen für den Ost-West-Datentransfer zwischen Servern optimiert sein. In einer Neocloud muss das GPU-Netzwerk erheblichen Synchronisationsverkehr für verteiltes KI-Training ohne Paketverlust übertragen. Das Neocloud-Netzwerk ist im Wesentlichen eine Verbindung für Hochleistungsrechencluster, die potenziell Tausende von GPUs unterstützt, die gleichzeitig ohne Durchsatzbeschränkungen arbeiten.

    Da diese Netzwerke speziell für KI-Workloads ausgelegt sind, beseitigt die Isolierung die für Multi-Tenant-Netzwerke typischen Konflikte und Schwankungen. Dadurch wird die für KI erforderliche konsistente und vorhersehbare Leistung ermöglicht.

    Die Herausforderung meistern: Integration und Konnektivität

    Neoclouds können die Grundlage für die Entwicklung und Bereitstellung KI-gestützter Anwendungen bieten, die Unternehmen benötigen. Die damit verbundene Komplexität bei Integration und Konnektivität unterscheidet sich jedoch von der in herkömmlichen Cloud-Umgebungen. Anders als bei Hyperscaler-Clouds, die in der Regel einfache Einstiegspunkte und Peering für Unternehmensverbindungen bieten, nutzen Neoclouds keine öffentlichen Internetknotenpunkte. Dies kann zu unregelmäßiger Latenz und schwankendem Durchsatz führen. Somit liegt es in der Verantwortung der Netzwerkbetriebsteams, maßgeschneiderte Verbindungen aufzubauen.

    Die hohen Rechenanforderungen in einer Neocloud-Umgebung bedeuten, dass die KI-Leistung beeinträchtigt werden kann, wenn das Netzwerk diesen Anforderungen nicht gewachsen ist. In vielen Fällen sind Neocloud-Anbieter noch dabei, ihre Kapazitäten auszubauen. Dies kann die Skalierbarkeit und Leistung beeinträchtigen.

    Da Neoclouds noch in den Kinderschuhen stecken, könnten ausgereifte Hyperscaler-Umgebungen bestimmte Sicherheits- und Observability-Funktionen vermissen lassen. Die Verantwortung für den Aufbau dieser Fähigkeiten könnte bei den Sicherheits- und Betriebsteams der Unternehmen liegen. Zudem bieten Neocloud-Anbieter tendenziell weniger Tools an und verfügen über ein begrenzteres Partner-Ökosystem als ihre Hyperscaler-Konkurrenten. Dies stellt eine zusätzliche Belastung für Kunden dar, denen die internen Neocloud-Kompetenzen wahrscheinlich fehlen.

    Für Unternehmen, die sich bereits mit den Herausforderungen der Verwaltung einer Multi-Cloud-Umgebung auseinandersetzen, bedeutet die Neocloud eine weitere Komplexitätsebene. Aus Netzwerkperspektive bedeutet dies ein aufwendigeres Routing- und Richtlinienmanagement.

    Darüber hinaus müssen europäische Unternehmen prüfen, inwiefern jüngere Neocloud-Anbieter aus den USA hiesige Compliance-Richtlinien wie die DSGVO und strenge Anforderungen an die Datensouveränität bereits vollumfänglich erfüllen können.

    Auf der anderen Seite: Kosteneffizienz und Leistung

    Neoclouds können den Weg zu optimalem Multi-Cloud-Computing ebnen. Sie stellen eine Umgebung bereit, die speziell auf die Anforderungen von KI-Anwendungen zugeschnitten ist, während die Standardinfrastruktur für allgemeine Workloads beibehalten wird. Mit anderen Worten: Neoclouds sind also kein Ersatz für herkömmliche Clouds, sondern eine parallele, spezialisierte Umgebung.

    Aus Kostensicht versprechen Neoclouds eine Kosteneinsparung von 50 bis 70 Prozent im Vergleich zum Betrieb von KI-Rechenaufgaben in herkömmlichen öffentlichen Clouds. Da sie speziell für KI-Workloads konzipiert sind, nutzen Neoclouds Infrastrukturen und Funktionen wie fortschrittliche Flüssigkeitskühlung, um ein schnelleres Modelltraining und eine effizientere GPU-Auslastung zu ermöglichen.

    Bewährte Verfahren für den Erfolg mit Neocloud

    Manche Unternehmen stehen möglicherweise unter Zeitdruck, KI-gesteuerte Anwendungen zu entwickeln, die die gewünschten Geschäftsergebnisse liefern. Bei der Einführung von Neocloud sollten Unternehmen jedoch zahlreiche Faktoren im Vorfeld berücksichtigen. Zwei der wichtigsten Fragen, die sich Unternehmen dabei stellen sollten, lauten wie folgt:

    1. Entspricht die Architektur den Geschäftszielen?
    2. Steht die geplante Anwendung im Einklang mit dem Unternehmenszweck?

    Da in vielen Unternehmen KI-Vorgaben festgelegt werden, kann dies zu einer überstürzten Herangehensweise bei der Entwicklung KI-gesteuerter Anwendungen führen.

    Unternehmen müssen ein einheitliches Netzwerkmodell über alle Clouds hinweg schaffen und gleichzeitig Richtlinienvarianten entwickeln, die den Anforderungen der Workloads gerecht werden. Auch die Kosten müssen in die Abwägung einbezogen werden. Ineffiziente Bereitstellungen haben Multi-Cloud-Implementierungen bisher belastet, was die Ausgaben in die Höhe treibt und den Ertrag schmälert. Unternehmen müssen die Gesamtkosten der Neocloud-Konnektivität unter Berücksichtigung dieser Aspekte betrachten.

    Zentrale Themen, die angegangen werden müssen, sind Netzwerkstandards und die Möglichkeit, Workloads in sekundäre Umgebungen zu verlagern. Eine Neocloud-Umgebung, in der kritische KI-Workloads ausgeführt werden, muss von Anfang an ausfallsicher sein.

    Dieser Artikel ist im Original in englischer Sprache auf Search Networking erschienen.

    Erfahren Sie mehr über LAN-Design und Netzwerkbetrieb