Getty Images/iStockphoto

Die Schichten eines KI-fähigen modernen Data Stacks

Unternehmen müssen ihre Dateninfrastruktur und Datenprozesse für das KI-Zeitalter modernisieren. Ein moderner Data Stack basiert auf einem mehrschichtigen Ansatz.

Viele Unternehmen stellen fest, dass die Dateninfrastrukturen, die ihnen in der Vergangenheit gute Dienste geleistet haben, mit der heutigen KI-Realität nicht mehr Schritt halten können.

Der Wandel von traditionellen Datenarchitekturen hin zu einem modernen Data Stack beschleunigt sich dank einer Flut von KI-Initiativen – und einem Mangel an Vertrauen in die Daten, die KI-Systeme speisen.

Umfrageergebnisse verdeutlichen die Probleme: Die globale Umfrage State of AI in the Enterprise von Deloitte aus dem Jahr 2026 ergab, dass zwar die Zahl der leitenden IT- und Geschäftsführungskräfte, die sich strategisch auf die Einführung von KI vorbereitet fühlen, von 39 Prozent im Vorjahr auf 42 Prozent gestiegen ist, das Vertrauen in die Technologieinfrastruktur und die Datenmanagementfähigkeiten ihres Unternehmens jedoch von 47 Prozent auf 43 Prozent beziehungsweise von 43 Prozent auf 40 Prozent gesunken ist. Eine IDC-Studie (PDF) aus dem Jahr 2025 berichtete, dass 84 Prozent der Unternehmen über veraltete Speichersysteme verfügen, die für anspruchsvolle KI-Workloads nicht optimal geeignet sind.

Für Datenverantwortliche in Unternehmen wird es zunehmend zur Priorität, veraltete Dateninfrastrukturen zu modernisieren, damit KI sicher eingesetzt werden kann, während gleichzeitig die Governance und die täglichen Datenmanagementpraktiken modernisiert werden, die KI-Modelle zuverlässig und automatisierte Entscheidungen vertretbar machen.

Von der Big-Data-Komplexität zu einer optimierten, KI-fähigen Infrastruktur

Der Unternehmens-Data-Stack entwickelt sich aus der Notwendigkeit heraus weiter. Um in der KI-orientierten Wirtschaft wettbewerbsfähig zu bleiben, orientieren sich Unternehmen zunehmend in Richtung Daten als Produkt. Dieser Wandel ersetzt instabile, manuelle Arbeitsabläufe durch eine geregelte Plattform, die auf Skalierbarkeit, Sicherheit und Wiederverwendbarkeit ausgelegt ist. In diesem modernen Data-Stack-Modell stellen IT- und Datenteams eine sichere, gemeinsame Grundlage bereit, während die Geschäftsbereiche die Verantwortung für die Anwendungsergebnisse behalten.

In jeder Phase dieses mehrschichtigen Ansatzes werden Daten verfeinert und validiert, bis sie aus ihrem Rohzustand in eine wiederverwendbare Ressource umgewandelt sind. Da Unternehmen autonome KI-Agenten einführen, ist dieses Maß an granularer Kontrolle über Daten und umfassender Governance eine Voraussetzung für sichere, zuverlässige KI-Anwendungen in großem Maßstab.

Listen moderner Data-Stack-Schichten sind nicht standardisiert, und die Terminologie unterscheidet sich oft je nach Quelle. Dies sind jedoch die Kernelemente.

1. Datenerfassungsschicht

Die erste Schicht umfasst die Datenerfassung und enthält die erforderliche Basisinfrastruktur, einschließlich Rechenressourcen, Netzwerke, Cloud-Dienste und Sicherheitskontrollen. In traditionellen Daten-Frameworks war dies weitgehend eine Aufgabe der IT, doch heute ist es eine strategische Designentscheidung, auf der die Geschäftsziele datengesteuerter Anwendungen beruhen. Es geht nicht mehr um die Wahl zwischen On-Premises- und Cloud-Bereitstellungen. Stattdessen entwerfen Datenverantwortliche maßgeschneiderte hybride Infrastrukturen, um die Verarbeitung auf On-Premises-Systeme für Datensouveränität, Edge-Standorte für Echtzeit-KI-Leistung und Cloud-Umgebungen für skalierbare Rechenleistung zu verteilen.

Teams können Push- oder Pull-Methoden nutzen, um Daten aus einer Vielzahl interner und externer Datenquellen, wie Cloud-Anwendungen und Streaming-Diensten, zu erfassen. Im modernen Data Stack findet eher ein Überprüfungsprozess statt. Nur weil riesige Datenmengen in die Infrastruktur eingelesen werden können, heißt das nicht, dass dies auch alles geschehen sollte. Der moderne Ansatz stellt zudem höhere Anforderungen an Datenqualität, Datenherkunft und -provenienz. Das größte Risiko in dieser Phase ist die Fragmentierung. Bleiben Datenquellen voneinander getrennt, müssen Teams Daten manuell integrieren und bereinigen sowie Engineering-Arbeiten wiederholen, was Geschäftsprozesse verlangsamt.

2. Speicherschicht

In der traditionellen Dateninfrastruktur ist diese Schicht oft ein chaotischer Sammelplatz. Unternehmen speichern ihre erfassten Rohdaten in mehreren, voneinander getrennten Datenbanken, was zu widersprüchlichen Versionen der Wahrheit führt. Dieser veraltete Ansatz macht es nahezu unmöglich, die Zuverlässigkeit von KI zu gewährleisten, da es keine einzige, kontrollierte Informationsquelle gibt. Data Warehouses entstanden zunächst, um strukturierte Daten für Business Intelligence und schnelle Abfragen zu konsolidieren.

Später nutzten Unternehmen Data Lakes, um unverarbeitete Daten zur Unterstützung von Analysen und KI-Arbeiten zu speichern. Der Betrieb sowohl eines Data Warehouses als auch eines Data Lakes führt jedoch zu Redundanzen durch separate Systeme zur Speicherung und Verwaltung unterschiedlicher Daten, was den Aufwand für Governance und Sicherheit erhöht.

Um diese Datensilos im modernen Data Stack zu vermeiden, steigen Unternehmen nun auf Data Lakehouses um, die die Kosteneffizienz von Data Lakes mit der Leistung von Warehouses verbinden. Die Lakehouse-Architektur ermöglicht eine einheitliche Governance durch den Aufbau einer Metadatenebene, die sowohl Rohdaten als auch verarbeitete Daten überwacht. Durch die Verwendung offener Tabellenformate zum Aufbau eines unternehmensweiten Systems of Records schaffen Unternehmen zudem eine konsistente Grundlage für die Entwicklung von KI-Modellen. Diese Methode verbessert die Datenverarbeitung, indem sie den Bedarf an unnötigen Datenkopien und manuellen Eingriffen reduziert.

3. Verarbeitungsschicht

Diese Schicht wandelt die Rohdaten in verwertbare Assets um, die bereit sind, analysiert oder in KI-Modelle eingespeist zu werden. Die Verarbeitung umfasst die Aufbereitung sowohl von ruhenden Batch-Datensätzen als auch von fließenden Streaming-Daten für nachgelagerte Analysen und den Einsatz von KI. Dieser Prozess der Datentransformation und -kuratierung umfasst die Bereinigung, Standardisierung, Anreicherung, Filterung, Verknüpfung und Aggregation der Daten.

Im modernen Data Stack geht diese Schicht über den traditionellen nächtlichen Datenaktualisierungszyklus hinaus, der für BI-Umgebungen konzipiert wurde. Die Verarbeitungsschicht muss Echtzeit-Aktualisierungen, multimodale Eingaben und die automatisierte Erfassung der Datenherkunft bewältigen, die jede Transformation dokumentiert. Dadurch wird sichergestellt, dass der Weg der Daten vom Rohzustand bis zur Aufbereitung nachvollziehbar ist, und das Risiko verringert, dass KI-Modelle Halluzinationen und andere Fehler erzeugen. Die Stream-Verarbeitung ermöglicht es, automatisierte Warnmeldungen und Empfehlungen so schnell wie möglich anzuzeigen, damit Endnutzer und autonome Agenten sofort Maßnahmen ergreifen können.

Datenverantwortliche sollten sicherstellen, dass ihre aktualisierte Infrastruktur diese zusätzliche Arbeit bewältigen kann, ohne dass ein Flickenteppich aus Tools und Übergaben erforderlich ist, der zu Governance-Lücken führen kann.

4. Verwaltungs- und Verteilungsschicht

In dieser Schicht werden die verarbeiteten Daten so organisiert, dass sie zweckmäßig sind. Integrierte Funktionen arbeiten zusammen, um die Daten nicht nur verfügbar zu machen, sondern auch sicherzustellen, dass sie verwaltet und gefunden werden können. Zu den Aufgaben hier gehören die Datenkatalogisierung, die Sichtbarkeit der Herkunft, die Durchsetzung von Governance-Richtlinien und die Erleichterung der Datensuche durch nachgelagerte Nutzer.

Dies ist die kritischste Schicht und entscheidet oft darüber, ob der gesamte moderne Data Stack erfolgreich ist oder scheitert. Letztendlich hängt die Arbeitsweise der meisten Unternehmen heute von der Vertrauenswürdigkeit der Daten ab. Gartner prognostiziert, dass 50 Prozent der Unternehmen bis 2028 aufgrund der zunehmenden Einführung von KI ein Zero-Trust-Modell für die Data Governance nutzen werden. Angesichts des Wachstums KI-generierter Daten sind automatisierte Datenverifizierung und aktives Metadatenmanagement in dieser Ebene wesentliche Bestandteile des Zero-Trust-Governance-Ansatzes.

Diese Ebene konzentriert sich in der Regel entweder auf Data-Mesh- oder Data-Fabric-Architekturen, die jeweils darauf ausgelegt sind, es den Nutzern zu erleichtern, Daten ohne zusätzliche Komplikationen zu finden und zu teilen. Ein Data Mesh basiert auf verteilter Domänenverantwortung, bei der verschiedene Abteilungen im Rahmen einer föderierten Governance-Struktur für ihre eigenen Daten verantwortlich sind, während ein Data Fabric Metadaten und automatisierte Integrationsfunktionen nutzt, um getrennte Datenbestände zusammenzuführen und deren Wiederverwendung zu vereinfachen.

5. Kontext- und Semantikschicht

Dies ist die Ebene, auf der Geschäftslogik sowohl auf verarbeitete als auch auf Rohdaten angewendet wird, um ihnen Bedeutung zu verleihen. Dieser Kontext hilft Endnutzern, KI-Systemen und Automatisierungstechnologien zu verstehen, wie Daten unternehmensweit interpretiert werden sollten.

Gemeinsame Definitionen, Wissensgraphen, Metriken und andere Strukturen sorgen für semantische Konsistenz. Die Verknüpfung von Kontext und Semantik mit der Datenherkunft und den Zugriffsrichtlinien verkürzt die Entscheidungszeit für Nutzer und KI-Tools gleichermaßen, da nicht mehr geprüft werden muss, ob Daten für Anwendungen relevant sind.

6. Integritäts- und Qualitätsschicht

Diese Schicht gewährleistet die Integrität der Daten, während sie durch den Stack fließen. Sie kombiniert Datenbeobachtbarkeit, Datenverwaltung, Datenqualitätsprüfungen und Datenschutzkontrollen, um sicherzustellen, dass die Daten für eine effektive Entscheidungsfindung korrekt, konsistent, dokumentiert und geschützt sind.

Diese Anordnung verleiht dem Stack Struktur, um unzuverlässige Datenfeeds und Datensilos zu verhindern. Datenqualitätsregeln identifizieren fehlende Werte, Datenduplikate und Probleme mit der Aktualität. Master-Data-Management-Verfahren erstellen gemeinsame Datensätze für Geschäftseinheiten wie Kunden und Produkte, um die Konsistenz systemübergreifend zu gewährleisten. Datenverwalter wenden Governance- und Sicherheitsrichtlinien an, die festlegen, wer wann Zugriff auf Daten erhält.

7. Verbrauchsschicht

Dies ist die oberste Ebene des Stacks, der Höhepunkt aller architektonischen Entscheidungen, die darauf abzielen, verfeinerte, vertrauenswürdige Daten zu erzeugen und diese zur richtigen Zeit an die richtigen Nutzer und Systeme zu liefern.

Traditionell umfasst die Anwendung der Daten Dashboards, Berichte und Analyse-Tools, doch mittlerweile umfasst sie auch eingebettete Analysen, Machine-Learning-Anwendungen sowie agentische KI oder halbautonome Workflows. Anstatt nur KI zu alten Prozessen hinzuzufügen, gestalten Datenverantwortliche diese Ebene neu, damit Agenten und Menschen mit klaren Entscheidungsgrenzen zusammenarbeiten können – wobei die IT die Plattform bereitstellt, während die Geschäftsbereiche die Ergebnisse bestimmen.

Was bei der Neubewertung des Data Stacks am wichtigsten ist

Wenn es an der Zeit ist, die Art und Weise zu aktualisieren, wie Ihr Unternehmen Daten verarbeitet, und Anbieter von Datenplattformen anklopfen, sollten Sie Fragen zur Produktbewertung vorbereiten, die Ihren spezifischen Anforderungen entsprechen, anstatt sich in Gesprächen über Leistung und Funktionslisten zu verlieren.

KI-Initiativen bringen eine Reihe neuer Anforderungen mit sich, die über die Fähigkeiten bestehender Datenarchitekturen hinausgehen. Zu den Prioritäten zählen heute die Vermeidung von Datenduplikaten, verbesserte Datenportabilität sowie eine starke Datenherkunft und Konsistenz über Abteilungen und Cloud-Umgebungen hinweg.

Hier sind einige Fragen, die Sie stellen sollten:

  • Bietet die Plattform eine einheitliche semantische Ebene und aktive Metadaten, um eine konsistente Logik über KI-Agenten und BI-Anwendungen hinweg zu gewährleisten?
  • Unterstützt die Plattform von Grund auf Hybrid-Cloud- und Multi-Cloud-Bereitstellungen für eine nahtlose Workload-Migration basierend auf Kosten-, Leistungs- oder Datenhoheitsanforderungen?
  • Verfügt sie über Policy-as-Code-Funktionen, um Data Governance, Datenschutz und Qualität über Datenbestände sowie KI-Modelle und -Agenten hinweg zu standardisieren?
  • Welche Funktionen bietet die Plattform in Bezug auf offene Tabellenformate, APIs und portable Pipelines, um einen hohen Arbeitsaufwand beim Verschieben von Daten und Workloads zu vermeiden?
  • Wie ist der Stand der Governance für agentische KI, und welche Pläne gibt es, um etwaige Lücken in der Überwachung zu schließen?
  • Gibt es eine zentrale Verwaltungsschnittstelle für Data Stewards, um die Durchsetzung von Richtlinien und die Behebung von Problemen zu überwachen?

Was kommt als Nächstes für den modernen Data Stack?

Alle Signale führender Analystenhäuser deuten darauf hin, dass die nächste Entwicklungsstufe des Data Stacks die Kontextwahrnehmung verfeinern, die Governance straffen und eine engere Integration mit Geschäftsabläufen und agentischen KI-Systemen vorantreiben wird.

Diese Trends hängen zusammen: Da Unternehmen zunehmend Agenten einsetzen, benötigen sie einen reichhaltigeren Kontext und strengere Datenkontrollen. Die eingangs erwähnte KI-Umfrage von Deloitte für 2026 ergab, dass zwar 74 Prozent der Unternehmen planen, agentische KI innerhalb von zwei Jahren einzusetzen, aber nur 21 Prozent bereits jetzt über ein Governance-Modell dafür verfügen.

Anbieter führen den Stack zusammen, verbinden Schichten, verbessern die semantische Struktur und integrieren Überwachungsmechanismen. Sie bewegen sich in Richtung eines einheitlichen, geregelten Data Lakehouses, um redundante Kopien und Datenbewegungen zwischen Silos zu reduzieren und so Kosten und Sicherheitsrisiken zu senken. Diese Architektur unterstützt das föderierte Modell mit geteilter Verantwortung, bei dem Führungskräfte Standards und Qualitätserwartungen festlegen, während die IT das Data Lakehouse verwaltet und Richtlinien durchsetzt, um Daten und KI in großem Maßstab aufeinander abzustimmen.

Unternehmen, die ihre bestehende Stack-Architektur neu bewerten, sollten einen modularen Ansatz verfolgen. Vermeiden Sie übermäßige Anschaffungen und konzentrieren Sie sich auf den unmittelbaren Bedarf an Datenkontext und Vertrauen. Dies bietet die Flexibilität, KI- und Analyseaufgaben heute zu erledigen, anstatt eine starre, teure Neugestaltung vorzunehmen, die in wenigen Jahren bereits veraltet sein kann.

Erfahren Sie mehr über Big Data