Ðвгений ÐÑÑипов -
KI verändert für Unternehmen Anforderungen an Observability
Klassische Observability Tools reichen für KI-Systeme nicht aus. Warum Unternehmen Verhalten, Entscheidungen und Ergebnisse ihrer KI ganzheitlich überwachen müssen.
Laut einer Untersuchung der Boston Consulting Group schaffen es nur fünf Prozent der Unternehmen, erfolgreich Mehrwert aus künstlicher Intelligenz (KI) zu generieren, obwohl die IT-Ausgaben für diese Technologie stark ansteigen. Die restlichen 95 Prozent haben Schwierigkeiten, diese Investitionen in Kosteneinsparungen oder Umsatzwachstum umzuwandeln. Es ist die Art von Statistik, an die wir uns von Beratern und Analysten mittlerweile gewöhnt haben, aber was bedeutet das in der Praxis?
Da so viele Unternehmen KI-Projekte in Angriff nehmen, besteht ein Problem darin, zu verstehen, wie sich die Systeme nach der Inbetriebnahme verhalten und ob sie die erwarteten Ergebnisse liefern. Dies wirft bekannte Fragen hinsichtlich Komplexität, Legacy-Systemen und Projektplanung auf. Aber es wirft auch die Frage nach der Observability auf: Reichen die Tools, auf die sich Unternehmen heute verlassen, für das KI-Zeitalter aus?
Observability soll Unternehmen Einblick in den Betrieb ihrer Systeme geben. Durch die Zusammenführung von Metriken, Logs und Traces ermöglichen entsprechende Tools Teams, die Performance zu überwachen, Probleme zu diagnostizieren und zu verstehen, wie sich Dienste verhalten, sobald sie live sind. Wie alles andere unterliegt auch sie jedoch den Feinheiten und Abweichungen der zugrunde liegenden Dateninfrastrukturen.
Für Pejman Tabassomi, EMEA Field CTO bei Datadog, haben Unternehmen oft Schwierigkeiten, Betriebsdaten über mehrere Systeme und Umgebungen hinweg zu korrelieren, was ihre Fähigkeit einschränkt, das Verhalten von Diensten durchgängig zu verstehen oder zu erkennen, wie die Leistung mit Geschäftsergebnissen zusammenhängt. Dies, so sagt er, werde bei KI-Projekten noch deutlicher, da Systeme dort mehr Datenquellen, Dienste und Modelle umfassen, was das Verhalten schwerer nachvollziehbar und erklärbar macht.
Jarrod Vawdrey, Field Chief Data Scientist bei Domino Data Lab, führt dies weiter aus. „Klassische Observability Tools wurden entwickelt, um eine einfache Frage zu beantworten: Ist das System in Betrieb? Wenn ein KI-System Entscheidungen trifft oder mit Kunden interagiert, sagt ‚in Betrieb‘ nicht viel aus.“
Und genau darin liegt das Problem. Systeme können technisch einwandfrei sein und dennoch falsche Ergebnisse liefern oder sich auf eine Weise verhalten, die mit herkömmlichen Monitoring Tools nur schwer zu erkennen ist. Unternehmen können zwar sehen, dass die Systeme laufen, aber nicht, ob sie wie beabsichtigt funktionieren.
Henne und Ei
Was also hoffen Unternehmen zu erreichen? Laut McKinsey verlagern Führungskräfte ihren Fokus derzeit von „kurzfristiger Resilienz hin zu nachhaltiger Produktivität und langfristiger Wirkung“, doch 86 Prozent geben an, dass ihre Unternehmen nicht darauf vorbereitet sind, KI im Tagesgeschäft einzusetzen. Woran liegt das? Ist es eine Frage der Transparenz? Hängt es mit den Vorlaufkosten zusammen? Oder vielleicht mit etwas anderem?
Virgin Atlantic setzt sich bereits in der Praxis damit auseinander. Die Fluggesellschaft hat einen KI-Concierge zur Kundenbetreuung eingeführt, doch die Überwachung des Systems umfasst weit mehr als nur die Verfolgung der Infrastrukturleistung. Ingenieure bewerten das Verhalten des Systems, prüfen die Antworten auf Genauigkeit, Tonfall und Angemessenheit und speisen diese Daten wieder in die Entwicklung ein, wobei sie im Rahmen eines kontinuierlichen Feedback-Kreislaufs praktisch jeden Kundenkontakt überprüfen. Die Herausforderung erstreckt sich zudem über die Leistung hinaus auf Bereiche wie die Sicherheit.
„Man entfernt sich von vielleicht eher traditionellen Angriffsvektoren, bei denen es um Dinge wie Injection-Angriffe oder das Ausnutzen von Schwachstellen in Systemen geht, hin zu menschlicheren, persuasiveren Angriffsarten, bei denen Nutzer versuchen, das Modell durch Sprache zu manipulieren“, sagt Mark O’Neill, Senior Manager für angewandte KI-Technik bei Virgin Atlantic.
Das erfordert einen anderen Ansatz beim Testen und Überwachen, bei dem Systeme in der Produktion kontinuierlich bewertet werden, anstatt lediglich auf Verfügbarkeit oder Leistung überprüft zu werden. Die Herausforderung ist nicht nur konzeptioneller Natur, sondern auch eine Frage des Umfangs. Da KI-Systeme immer größere Datenmengen generieren, haben traditionelle Überwachungsansätze Mühe, Schritt zu halten.
Jeff Champagne, Field CTO bei Cribl, beschreibt diesen Wandel als einen „Telemetrie-Tsunami“ aus Metriken, Protokollen und Traces, angetrieben von agentischen Systemen, die mit Geschwindigkeiten arbeiten, die weit über menschliche Interaktion hinausgehen. Der Fokus, so sagt er, verlagert sich weg vom Zustand der Infrastruktur hin zur „logischen Integrität“ – also der Frage, ob Systeme die richtigen Daten verwenden, korrekte Ergebnisse liefern und sicher agieren.
In vielen Fällen liegt die Ursache eines Problems nicht im Modell selbst, sondern in den Datenpipelines und nachgelagerten Systemen, von denen es abhängt, was die Diagnose von Problemen erschwert, wenn keine Transparenz über den gesamten Stack besteht. Für Observability-Plattformen wirft dies die Frage auf, was tatsächlich gemessen wird und ob aktuelle Ansätze mit dem Umfang und der Komplexität von KI-Systemen Schritt halten können.
Wie Vawdrey von Domino Data Lab es formulierte, wurden traditionelle Observability Tools entwickelt, um zu testen, ob ein System läuft. Im KI-Kontext, so argumentiert er, reicht das nicht mehr aus.
Analysten sagen, dies sei nicht einfach nur ein Problem der Tools, sondern spiegele wider, wie sich Unternehmenssysteme selbst verändern. Gartner identifiziert Multi-Agenten-Systeme und KI-native Entwicklungsplattformen als Schlüsseltrends, die die Unternehmens-IT prägen, wobei Anwendungen nicht mehr statisch sind, sondern aus interagierenden Komponenten bestehen, die in verteilten Umgebungen operieren.
In diesem Modell entwickeln sich Systeme kontinuierlich weiter, wobei Entscheidungen und Maßnahmen über mehrere Ebenen von Infrastruktur, Daten und Modellen hinweg getroffen werden. Dies, so argumentieren die Gartner-Analysten, erhöht sowohl die Komplexität als auch das Betriebsrisiko der Unternehmens-IT und erschwert es, klare Ursache-Wirkungs-Zusammenhänge herzustellen, wenn etwas schiefgeht.
Intelligente Observability auf dem Vormarsch
Dies hat bereits Auswirkungen darauf, wie sich Observability selbst weiterentwickelt. Laut IBM werden Plattformen intelligenter, um mit KI-Systemen Schritt zu halten, wobei Unternehmen zunehmend maschinelles Lernen einsetzen, um Telemetriedaten zu analysieren, Anomalien zu erkennen und Reaktionen zu automatisieren. Im Grunde geht es darum, KI einzusetzen, um KI zu beobachten.
„Die Intelligenz und Geschwindigkeit, die erforderlich sind, um diese KI-Systeme funktionsfähig zu halten, nehmen ebenfalls parallel zu, was die Implementierung innovativerer und leistungsfähigerer Arten von Intelligenz erfordert“, sagt Arthur de Magalhaes, leitender technischer Mitarbeiter für AIOps bei IBM.
Gleichzeitig argumentiert Carlos Casanova, Principal Analyst bei Forrester, dass Observability „fest in den Softwareentwicklungszyklus eingebunden“ werden sollte, wobei Echtzeit-Telemetriedaten genutzt werden, um Design, Tests und Bereitstellung zu beeinflussen, anstatt auf Ausfälle in der Produktion zu reagieren.
Diese Veränderungen spiegeln sich bereits in den Herausforderungen wider, mit denen Unternehmen in der Praxis konfrontiert sind. Tabassomi verweist darauf, dass CIOs sich zunehmend darauf konzentrieren, zu verstehen, wie Systeme genutzt werden, zwischen menschlichen Benutzern, automatisierten Agenten und externen Diensten zu unterscheiden und ungewöhnliche Verhaltensmuster zu identifizieren.
Das hat Auswirkungen, die über die reine Leistung hinausgehen. Da KI-Systeme die Anzahl der Interaktionen zwischen verschiedenen Umgebungen erhöhen, vergrößern sie auch die potenzielle Angriffsfläche und das Risiko eines unerwarteten Ressourcenverbrauchs.
„Bei Observability geht es darum, zu verstehen, was gefährdet ist und wie Systeme funktionieren“, sagt Tabassomi.
In diesem Zusammenhang wird Observability nicht nur zur Überwachung der Infrastruktur genutzt, sondern auch zur Steuerung von Risiken, Kosten und betrieblichen Auswirkungen in immer komplexeren Systemen. Es handelt sich um eine Weiterentwicklung der Technologie, die einen breiteren Aufgabenbereich umfasst, um Unternehmen dabei zu unterstützen, die Herausforderungen der Fragmentierung zu bewältigen.
Tabassomi sagt, dass viele CIOs eine stärkere Konsolidierung ihrer Technologieumgebungen anstreben, nicht nur auf Systemebene, sondern auch über Teams und Arbeitsabläufe hinweg. Daten, Infrastruktur und Zuständigkeiten sind oft auf verschiedene Funktionen verteilt, was es erschwert, ein kohärentes Bild davon zu erstellen, wie sich Dienste verhalten oder wo Probleme ihren Ursprung haben. Wenn Umgebungen skalieren, kann diese mangelnde Abstimmung zu Ineffizienzen, längeren Reaktionszeiten und höheren Betriebskosten führen. Der Einsatz von KI in diesem Umfeld sorgt nur für noch mehr Kopfzerbrechen.
Vielleicht wächst deshalb die Erwartung, dass Observability über reine Sichtbarkeit hinausgehen sollte. Da KI-Systeme immer autonomer werden, interessieren sich Teams weniger für Dashboards, die das Systemverhalten beschreiben, und konzentrieren sich mehr darauf, welche Maßnahmen als Reaktion darauf zu ergreifen sind.
Das stellt neue Anforderungen an Observability-Plattformen, von denen zunehmend erwartet wird, dass sie Ursachen identifizieren, Probleme priorisieren und in einigen Fällen automatisierte Reaktionen auslösen. In diesem Sinne nähert sich Observability der Entscheidungsunterstützung an, anstatt lediglich über die Systemleistung zu berichten.
Dies führt zu einem Umdenken darüber, wozu Observability dient. Observability verschwindet sicherlich nicht, aber ihr Anwendungsbereich wird etwas erweitert. Die Kernidee, Daten zusammenzuführen, um das Verhalten von Systemen zu verstehen, funktioniert nach wie vor. Doch im KI-Kontext wird das Verhalten nicht mehr allein durch die Leistung definiert. Es umfasst auch Ergebnisse, Entscheidungen, Interaktionen und deren Auswirkungen auf Nutzer und das Unternehmen.
Es gibt bereits Anzeichen dafür, dass Unternehmen darauf reagieren. Gartner prognostiziert, dass bis 2027 70 Prozent der Unternehmen, die verteilte Datenarchitekturen implementieren, Tools zur Data Observability einsetzen werden – gegenüber 50 Prozent im Jahr 2025 –, da sie die Transparenz in zunehmend komplexen Datenumgebungen verbessern wollen.
Die gleiche Studie stellt zudem fest, dass traditionelle reaktive Überwachungsansätze in diesen Umgebungen nicht mehr ausreichen, insbesondere da KI-Initiativen höhere Anforderungen an Datenqualität, Governance und Echtzeit-Einblicke stellen.
Was Unternehmen benötigen, ist eine umfassendere Sichtweise, die traditionelle Telemetrie mit Einblicken in Verhalten, Kontext und Ergebnisse verbindet. Die Herausforderung besteht darin, die Observability an Systeme anzupassen, die weniger vorhersehbar, autonomer und schwerer zu interpretieren sind. Natürlich neigt Technologie dazu, Probleme zu lösen, nur um dann neue zu schaffen. Observability ist Teil dieses Kreislaufs und versucht, mit Systemen Schritt zu halten, die immer schwerer zu fassen sind.
Wie Champagne von Cribl sagt: „Echte Observability erfordert in dieser Zeit Transparenz über den gesamten Stack hinweg, nicht nur über das Modell.“
Dieser Artikel ist im Original in englischer Sprache auf Computerweekly.com erschienen.