Gesponserte Inhalte

Gesponserte Inhalte ist eine spezielle Kategorie mit Werbeinhalten, die von IT-Anbietern zur Verfügung gestellt werden. Diese umfasst lehrreiche Inhalte und interaktive Medien, die auf die Themen dieser Seite ausgerichtet sind.

Die fünf Herausforderungen bei der Datenvorbereitung für KI

Haben Sie Probleme mit Ihrer KI-Initiative? Möglicherweise suchen Sie an der falschen Stelle nach Antworten. Statt Ihr LLM verantwortlich zu machen, lohnt sich ein Blick auf die Datenvorbereitung. Schlechte Planung bringt mehr KI-Projekte zum Scheitern als schlechte Algorithmen. Häufig ist der entscheidende Engpass bei unzureichend vorbereiteten KI-Projekten eine Storage-Infrastruktur, die nicht mithalten kann.

KI ist extrem datenhungrig, und viele Unternehmen können die benötigten Daten nicht schnell genug bereitstellen. Ihre Storage-Systeme geraten unter Druck durch Petabytes an Trainingsdaten und KI-Inferenz-Workloads, die nicht effizient durch die Pipeline verarbeitet werden können.

Fünf zentrale Herausforderungen prägen die Phase der Datenerfassung und -aufbereitung in einer KI-Pipeline. Sie beeinflussen sich gegenseitig und verstärken die Probleme, sodass KI-Projekte oft schon früh ins Stocken geraten. Im Folgenden werden sie der Reihe nach betrachtet.

1. Storage-Kapazität

Das größte Problem ist zugleich das naheliegendste: fehlende Kapazität. ESG-Studien zeigen, dass nahezu die Hälfte der IT-Teams Kapazität als größte Herausforderung im Storage-Bereich einstuft. Ein einzelner Trainingslauf eines LLM kann bis zu 50 TB an Daten erzeugen. Klassische SAN-Systeme sind für solche Anforderungen nicht ausgelegt.

Auch deshalb planen 83 % der von ESG befragten Unternehmen innerhalb der nächsten 24 Monate Storage-Upgrades, um den Anforderungen von KI gerecht zu werden.^[1] Sie haben erkannt, welche Folgen es hat, wenn Storage nicht mit den Anforderungen von KI-Projekten Schritt hält.

Es gibt hier mehrere Ansätze, die über das einfache Hinzufügen weiterer Storage-Knoten hinausgehen. Die Wahl eines Anbieters mit leistungsfähiger Komprimierungs- und Deduplizierungstechnologie kann die Situation erheblich verbessern. Moderne Anbieter garantieren Datenreduktion von bis zu 5:1 ohne vorherige Analyse.

Ein weiterer Ansatz liegt im Beschaffungsmodell. Flexible Modelle ermöglichen es, Storage-Kapazitäten bereitzustellen, aber nur für die tatsächlich genutzte Kapazität zu bezahlen. Das verhindert Überprovisionierung und erhält gleichzeitig ausreichend Spielraum für Wachstum.

2. Security und Compliance

24 % der IT-Teams nennen Security als zweitgrößte Herausforderung bei der Datenvorbereitung für KI, direkt nach Kapazitätsengpässen. Jeder KI-Datensatz ist ein potenzielles Ziel für Ransomware. Moderne Storage-Systeme begegnen dieser Bedrohung mit unveränderlichen Snapshots und dateibasierter Aufbewahrung, die sich als wirksame Schutzmechanismen erwiesen haben.

Compliance-Anforderungen verschärfen die Situation zusätzlich. Daten müssen oft innerhalb bestimmter geografischer Grenzen gespeichert werden. Im Gesundheitswesen gelten spezifische regulatorische Vorgaben, ebenso im Finanzsektor auf nationaler und regionaler Ebene. Anforderungen an Datensouveränität können die gesamte Architektur beeinflussen und führen häufig dazu, dass Unternehmen wieder stärker auf On-Premises-Infrastrukturen setzen.

Auch Vertrauen spielt eine zentrale Rolle bei der Entscheidung, wo Daten gespeichert werden. ESG-Daten zeigen, dass 50 % der Unternehmen ihre eigenen Rechenzentren, Colocation- oder Edge-Umgebungen als primären Speicherort für KI-Daten nutzen, anstatt Hyperscaler zu bevorzugen. Gleichzeitig bestehen 76 % darauf, besonders kritische Daten weiterhin im eigenen Rechenzentrum zu halten.

Moderne Storage-Systeme bieten integrierte Schutzmechanismen, die die Datenintegrität bereits beim Schreiben sicherstellen, unabhängig davon, ob die Daten On-Premises oder in der Cloud gespeichert werden.

3. Datenqualität

Garbage in, garbage out gilt weiterhin. Jedes fünfte Unternehmen gibt an, Probleme mit der Datenqualität zu haben. Das können Sensordaten mit uneinheitlicher Kennzeichnung, Kundendaten ohne Metadaten oder Trainingsdatensätze sein, die nicht validiert werden können.

Auch hier spielt Storage eine Rolle. Schnelle Storage-Systeme ermöglichen eine bessere Klassifizierung und verbessern den Umgang mit Metadaten. Je weniger Zeit Engineers mit infrastrukturellen Problemen verbringen, desto mehr können sie sich auf die Entwicklung konzentrieren.

4. Kosten

Fast jedes fünfte Unternehmen stellt fest, dass Storage-Kosten für KI einen erheblichen Teil des Infrastruktur-Budgets beanspruchen. Während GPU-Kosten oft schwer zu beeinflussen sind, lassen sich im Storage-Bereich Effizienzgewinne erzielen. Datenreduktion durch dauerhaft aktive Deduplizierung trägt dazu bei, den Speicherbedarf zu senken. Zudem verfügen größere Storage-Anbieter über langfristige Vereinbarungen mit Flash-Herstellern, was zu stabileren Preisen in einem volatilen Markt führt.

5. Skalierbarkeit

18 % der Unternehmen sehen Skalierbarkeit als Herausforderung bei der Vorbereitung von Daten für KI-Prozesse. Storage-Anforderungen müssen insbesondere während Trainingsphasen flexibel angepasst werden, vor allem wenn Modelle für spezifische Anwendungsfälle optimiert werden.

Ausfallsicherheit bei Cyberangriffen – Erkenntnisse

Unternehmen mit starker Cyber-Resilienz überstehen Angriffe fast dreimal häufiger. Doch 74 % der IT-Profis sehen gefährlichen Optimismus im Management. KI-Erkennung und regelmäßige Tests bleiben zentral. Infografik zeigt mehr.

Voir maintenant

Hier kommen hybride Storage-Ansätze ins Spiel. Ein einheitliches Storage-Ökosystem, das sowohl On-Premises- als auch Cloud-Umgebungen unterstützt, ermöglicht es, Daten flexibel innerhalb derselben Umgebung zu nutzen, von der Datenerfassung über die Vorbereitung bis hin zu Training und Inferenz.

Fazit

Moderne Storage-Plattformen adressieren alle fünf Herausforderungen gleichzeitig. Sie skalieren linear ohne grundlegende Infrastrukturwechsel, integrieren Sicherheitsmechanismen von Anfang an und bieten die notwendigen Werkzeuge zur Verbesserung der Datenqualität. Sie unterstützen alle relevanten Protokolle für KI-Pipelines und ermöglichen gleichzeitig Effizienzgewinne.

KI-Initiativen benötigen eine Storage-Infrastruktur, die mit ihren Anforderungen Schritt halten kann.

^[1] Enterprise Strategy Group: Vollständige Umfrageergebnisse „The Critical Role of Storage in Building an Enterprise AI Infrastructure“, September 2025. Alle in diesem Artikel genannten Studienergebnisse stammen aus dieser Untersuchung.

Shutterstock

ComputerWeekly.de

Storage-Preise: Strategien aus der doppelten Kostenfalle
KI-Skalierung und digitale Souveränität treiben die IT, doch steigende Cloud-Kosten und Speicherknappheit gefährden Budgets. Ohne...
Wie KI die Softwareentwicklung neu organisiert
Generative KI beschleunigt die Codeerstellung. Der eigentliche Engpass verschiebt sich dadurch aber nur. Unternehmen müssen daher...
Composable vs. Programmable Communications: eine Erklärung
Composable und Programmable Communications ermöglichen flexible, anpassbare Kommunikationslösungen und sparen Kosten. ...