Thitiporn - stock.adobe.com
KI-Workloads: Kriterien für die Wahl des Cloud Storage
Cloud-Speicher beeinflusst Leistung, Skalierbarkeit und Kosten von KI-Umgebungen Erfahren Sie, wie Sie passendes Storage wählen, Datenpipelines optimieren und Best Practices anwenden.
Im Großen und Ganzen erfüllen moderne Cloud-Speichersysteme alle denselben Zweck – nämlich die Speicherung von Daten – und das auf dieselbe grundlegende Weise. Im Zusammenhang mit der Einführung von KI-Anwendungen in Unternehmen gewinnt Cloud-Speicher weiter an Bedeutung. Da viele KI-Anwendungen sehr datenintensiv sind, spielen das Design und die Konfiguration von Speichersystemen eine entscheidende Rolle für die Leistung, Skalierbarkeit und Kostenoptimierung der KI-Umgebungen.
Laut einer Studie von Omdia, einem Geschäftsbereich von Informa TechTarget, werden die Ausgaben für Cloud-Speicher in Unternehmen voraussichtlich von 57 Milliarden US-Dollar (2023) auf 128 Milliarden US-Dollar bis 2028 steigen, was stark von der Nachfrage nach künstlicher Intelligenz (KI) getrieben wird.
Cloud-Speicher spielt eine entscheidende Rolle für den Erfolg von KI. Dieser Beitrag erklärt, wie Sie die Cloud-Speicherstrategie Ihres Unternehmens für KI weiterentwickeln können.
Ein Überblick über Cloud-Speichersysteme
Ein Grund dafür, dass die Cloud-Speicherstrategie Auswirkungen auf KI hat, ist, dass Cloud-Anbieter verschiedene Arten von Speicherlösungen bereitstellen. Zu den wichtigsten Optionen gehören:
- Objektspeicher (Object Storage). Objektspeicherdienste wie Amazon S3 und Azure Blob Storage ermöglichen es Unternehmen, große Datenmengen in hochskalierbarer Form zu speichern, insbesondere für unstrukturierte oder semistrukturierte Daten.
- Blockspeicher (Block Storage). Blockspeicher wie Azure Disk Storage und Amazon Elastic Block Store sind für niedrige Latenz und hohe I/O-Leistung ausgelegt und eignen sich besonders für Datenbanken, VM-Volumes und dateisystembasierte Server-Workloads.
- Dateispeicher (File Storage). Dateispeicherdienste wie Amazon Elastic File System können ebenfalls zur Bereitstellung von Speicher für Cloud-Server genutzt werden, wobei sich Eignung und Leistung je nach Zugriffsmuster und Anwendung unterscheiden.
- Datenbanken. Moderne Cloud-Lösungen bieten eine Vielzahl von verwalteten Datenbankdiensten, die sowohl strukturierte als auch unstrukturierte Daten hosten können.
Wie sich Cloud-Speicher auf KI-Workloads auswirkt
Alle oben beschriebenen Speichersystemtypen können die Daten hosten, die KI-Workloads antreiben. Die Leistung, die Kosten und die Sicherheit von KI-Umgebungen können jedoch erheblich variieren, je nachdem, für welche Cloud-Speicheroption sich ein Unternehmen entscheidet.
Betrachten wir zum Beispiel den gängigen KI-Anwendungsfall des Trainings eines Modells. In den meisten Fällen könnten Trainingsdaten in jedem beliebigen Cloud-Speichersystem liegen. Je nach den folgenden Überlegungen könnte jedoch ein Speichertyp besser geeignet sein als andere.
- Skalierbarkeit. Für das Hosting sehr großer Datenmengen ist Objektspeicher in der Regel ideal, da seine Skalierbarkeit praktisch unbegrenzt ist.
- Datenstruktur. Wenn Sie ein Modell mit einer Vielzahl unterschiedlicher Arten unstrukturierter Daten trainieren – wie beispielsweise Dokumenten und Mediendateien –, eignet sich Objektspeicher gut, da er jede Art von Informationen aufnehmen kann. Bei der Verwendung strukturierterer Datentypen – beispielsweise wenn Sie ein Modell auf der Grundlage von Einträgen aus Protokolldateien trainieren – liefert eine strukturierte Datenbank jedoch wahrscheinlich eine bessere Leistung.
- Trainingsgeschwindigkeit. Wenn Sie ein Modell besonders schnell trainieren müssen, kann ein Speichersystem mit hoher I/O-Geschwindigkeit hilfreich sein. Beispielsweise können die I/O-Raten bei Diensten wie EBS bis zu etwa 20-mal schneller sein als bei S3. RAM-basierte Datenbanken bieten ebenfalls eine sehr hohe I/O-Leistung, sind jedoch in der Regel auch sehr kostspielig.
- Kosten. Cloud-Speichersysteme sind mit unterschiedlichen Kosten verbunden. Gemessen an den Kosten pro Gigabyte Daten ist Objektspeicher in der Regel die kostengünstigste Möglichkeit, Daten in der Cloud zu speichern, was ihn attraktiv macht, wenn Sie mit einem sehr großen Trainingsdatensatz arbeiten. Es gibt jedoch Ausnahmen; so kann sich beispielsweise eine Datenbank als kostengünstiger erweisen, wenn Sie viele kleine, strukturierte Datenbestände haben – während Objektspeicher in der Regel am günstigsten ist, wenn Sie mit Dateien sehr unterschiedlicher Größe arbeiten.
Variablen wie diese verdeutlichen, wie wichtig es ist, bei der Auswahl eines Cloud-Speichersystems für KI-Workloads die Vor- und Nachteile gegeneinander abzuwägen. Wenn beispielsweise die Kostenoptimierung beim Trainieren eines Modells Priorität hat, ist der Einsatz von Objektspeicher am sinnvollsten. Alternativ sind Blockspeicher oder eine In-Memory-Datenbank die bessere Wahl, wenn das primäre Ziel darin besteht, die Gesamttrainingszeit zu verkürzen.
Best Practices für Cloud-Speicher für KI-Workloads
Neben der Auswahl des idealen Cloud Storage für eine bestimmte KI-Workload oder einen bestimmten Anwendungsfall sollten Unternehmen auch Best Practices wie die folgenden berücksichtigen, die dazu beitragen können, die Leistung und die Kosten von Cloud-Speicher im Rahmen jeder KI-Bereitstellung zu optimieren.
1. Datenbereinigung
Datenbereinigung ist der Prozess, bei dem ungenaue, redundante oder anderweitig minderwertige Daten aus einem Datensatz entfernt werden. Die Bereinigung von KI-Daten ist wichtig, um die Leistung von KI-Modellen zu verbessern. Sie kann aber auch die Speicherkosten senken und die Skalierbarkeit des Speichers erhöhen, indem die Gesamtdatenmenge reduziert wird, die Cloud-Speichersysteme aufnehmen müssen.
2. Implementieren Sie Observability für Datenpipelines
Um sicherzustellen, dass der von Ihnen genutzte Cloud-Speicher die erwartete Leistung erbringt, sollten Sie Datenpipelines überwachen und beobachten – also die Wege, die Daten bei dem Transfer zwischen Speichersystemen und KI-Workloads nehmen.
Observability hilft dabei, Engpässe zu identifizieren, wie beispielsweise einen bestimmten Dateityp, der länger als erwartet benötigt, um eine KI-Anwendung zu erreichen. Sie kann auch bei der Kostenüberwachung helfen, indem sie erfasst, wie viele Daten Sie speichern und übertragen. Beachten Sie, dass viele Cloud-Speicherdienste nicht nur auf Basis des gesamten Speichervolumens abgerechnet werden, sondern auch danach, wie häufig Kunden Daten übertragen oder darauf zugreifen.
3. Speicherebenen berücksichtigen
Einige Arten von Cloud-Speichersystemen – insbesondere Objektspeicher – bieten mehrere Speicherebenen (Storage Tiers) an. Diese bestehen in der Regel aus drei Hauptkategorien: Hot (heiß), Warm und Cold (kalt). Je heißer die Speicherebene, desto schneller können Workloads auf Daten zugreifen, aber desto mehr zahlen Kunden.
Um das Gleichgewicht zwischen Speicherkosten und Leistung zu optimieren, wählen Sie die richtige Speicherebene je nach Art der Workload aus. Während des Modelltrainings ist es beispielsweise am sinnvollsten, Daten im Hot-Speicher zu belassen, wo Modelle sie schneller verarbeiten können. Nach dem Training können die Daten in den Cold-Speicher migriert werden, falls das Unternehmen die Trainingsdaten für eine spätere Neutrainierung eines Modells bereithalten möchte.
4. Datensicherheit gewährleisten
Wie bei jeder Art von Workload müssen Sie die Daten, die KI-Modelle verbrauchen und generieren, durch Backups schützen. Obwohl Cloud-Speicherdienste selten Ausfallzeiten haben, können sie dennoch ausfallen. Außerdem könnten Benutzer oder KI-Anwendungen selbst versehentlich Daten löschen, weshalb es entscheidend ist, Backups zur Hand zu haben.
Aus diesen Gründen sollten Unternehmen in Datensicherungsoptionen für Cloud-Speichersysteme investieren. Der beste Weg, dies zu tun, hängt von der Art des Speichersystems und den betreffenden Daten ab. In einigen Fällen reicht es möglicherweise aus, einfach Kopien der Daten zu erstellen und diese in derselben Cloud wie die Primärdaten zu speichern. Für zusätzliche Zuverlässigkeit sollten Sie jedoch in Betracht ziehen, Daten in eine andere Cloud oder in einen lokalen Speicher zu kopieren, um sicherzustellen, dass sie auch bei einem Ausfall der primären Cloud verfügbar bleiben. Die Konfiguration des Backup-Speichers als unveränderlich – wodurch das Löschen oder Ändern von Daten unmöglich wird – kann den Schutz ebenfalls verbessern, indem sie das böswillige oder versehentliche Löschen von Backups verhindert.
Auf einen Blick: Storage-Optimierung für KI
Bedarfsgerechte Wahl: Objektspeicher ist ideal für die Skalierung bei unstrukturierten Daten; Block Storage bietet die nötige Performance für latenzkritische Datenbanken und VM-Volumes.
Performance vs. Kosten: Balancieren Sie I/O-Anforderungen und Speicherkosten aktiv aus; In-Memory-Optionen sind leistungsstark, aber kostenintensiv.
Datenpipeline-Observability: Überwachen Sie Datenwege kontinuierlich, um Engpässe frühzeitig zu identifizieren und die Kosten für Datentransfers zu kontrollieren.
Effizientes Tiering: Nutzen Sie Hot-, Warm- und Cold-Speicherebenen konsequent: Daten für das aktive Training gehören auf High-Performance-Ebenen, ruhende Daten in den Cold Storage.
Sicherheit ist Pflicht: Implementieren Sie robuste Backup-Strategien und unveränderliche Speicher (Immutable Storage), um sich gegen Datenverlust und Ransomware abzusichern.