Gorodenkoff - stock.adobe.com

Komplexe IT-Umgebungen mit AIOps und Observability verwalten

IT-Umgebungen werden komplexer und AIOps- und Observability-Tools liefern wertvolle Einblicke und identifizieren Problembereiche. Es gibt aber auch Hürden bei der Einführung.

Da Unternehmen ihre Betriebs- und Entwicklungsprozesse verbessern wollen, wächst das Interesse an AIOps und Observability weiter. Doch obwohl diese Technologien immer leichter zugänglich sind, bringen beide Vorteile und Herausforderungen bei der Bereitstellung mit sich.

KI und Observability (Beobachtbarkeit) können IT-Betriebsteams dabei helfen, hoch automatisierte, sichere und selbstheilende Rechenzentren aufzubauen, die widerstandsfähiger und effizienter sind. Diese Technologien können auch wichtige Aspekte des Entwicklungsprozesses beschleunigen und verbessern, zum Beispiel die Codegenerierung, Sicherheitstests, Qualitätssicherung, Fehlererkennung und Fehlerbehebung.

Zusammen können AIOps und Observability-Tools die Fähigkeiten des jeweils anderen verstärken und Unternehmen dabei helfen, immer komplexere IT-Umgebungen abzubilden, zu beobachten und zu verwalten. Aufgrund des exponentiellen Anstiegs der Datenmenge und der zunehmenden IT-Komplexität sollten Management- und IT-Führungskräfte beginnen, Strategien für die Einführung von AIOps und Observability zu entwickeln.

Einsatz von KI zur Verbesserung des IT-Betriebs

KI für den IT-Betrieb (AIOps) ist eine Schlüsselkomponente der Automatisierung. AIOps-Plattformen verbessern und reparieren proaktiv und automatisch IT-Probleme auf der Grundlage von gesammelten Informationen aus einer Reihe von Quellen, darunter Systemüberwachung, Leistungsbenchmarks, Jobprotokolle und andere betriebliche Quellen.

Mit AIOps können IT-Teams automatisch die Hardwareleistung überwachen, die Benutzerfreundlichkeit erweitern, Kapazitätsverluste erkennen und eine Verschlechterung der Dienste vermeiden. Diese Funktionen sind unerlässlich, um der Komplexität verteilter Dienste gerecht zu werden und eine hohe Verfügbarkeit im Rechenzentrum zu gewährleisten.

Durch den Einsatz von KI mit prädiktiver Analytik können IT-Teams eine enorme Anzahl von physischen Servern und Speicherressourcen präzise verwalten. Im Bereich der Infrastruktur können IT-Teams mithilfe von KI die Energieverwaltung und -steuerung verbessern. KI-Tools können nicht nur die Leistung optimieren, sondern auch dabei helfen, die Arbeitslasten effizienter auf die Server zu verteilen.

Darüber hinaus können intelligente Sensoren an den Geräten Ausfälle im Rechenzentrum verhindern, indem sie automatische Reparaturen auslösen und die Administratoren über Defekte informieren. Diese KI-Funktionen reduzieren nicht nur die Ausfallzeiten, sondern tragen auch dazu bei, Systemausfälle zu verhindern, die sich negativ auf die Produktivität des Unternehmens und die Erbringung des Kundendienstes auswirken.

Auf organisatorischer Ebene können Unternehmen Personalengpässe durch IT-Automatisierung ausgleichen oder Mitarbeiter durch KI-gesteuerte Schulungen weiterqualifizieren. Und was die Sicherheit betrifft, so können KI-Tools proaktiv Netzwerkanomalien erkennen und aktiv Lücken in der Netzwerkverteidigung schließen.

Modernisieren Sie die Entwicklung mit Observability

Die Observability liefert Kontext und wichtige Erkenntnisse zur Verbesserung aller Phasen des Entwicklungsprozesses.

Im Gegensatz zum reaktiven - und begrenzten - traditionellen Ansatz der IT-Überwachung sammeln Observability-Tools granulare Telemetriedaten und nutzen Metriken, Logs und Traces, um Einblick in komplexe Systeme zu erhalten. Sie wenden diese Informationen dann an und kontextualisieren sie, um fundiertere IT-Entscheidungen zu unterstützen.

Abbildung 1: Die drei Komponenten der Observability sind Metriken, Logs und Traces.
Abbildung 1: Die drei Komponenten der Observability sind Metriken, Logs und Traces.

Der große Umfang von Observability ermöglicht es DevOps-Teams, Systeme zu testen und potenzielle Probleme frühzeitig im Entwicklungsprozess zu erkennen, was wiederum die Zusammenarbeit zwischen Entwicklern, Qualitätssicherheit und IT-Ops verbessert. Observability-Praktiken beseitigen daher die für herkömmliche Wasserfall-Ansätze charakteristischen, isolierten Entwicklungsbeschränkungen und unterstützen die agilen Frameworks, die für die Entwicklung verteilter Anwendungen entscheidend sind.

Durch regelmäßiges Sammeln von Leistungs-Feedback von Observability-Tools können DevOps-Teams Probleme erkennen und Anwendungen im Laufe der Zeit durch kontinuierliche Iteration verbessern. Observability kann auch die Qualität und Genauigkeit von Anforderungsdokumenten verbessern und dazu beitragen, die Integrität des Endprodukts zu gewährleisten und den Zeitplan einzuhalten.

Die Vorteile von AIOps und Beobachtbarkeit

Die Kombination von AIOps mit Observability verbessert die Fähigkeiten von AIOps-Plattformen, indem sie das Betriebsrauschen (Operational Noises) durch zahllose Warnungen reduziert und bisher nicht diagnostizierte Probleme aufzeigt.

Observability liefert spezifische Leistungsdaten und nützlichen Kontext für Entwickler, die potenzielle Probleme in einem Softwareprodukt aufdecken möchten. AIOps-gestützte Observability ermöglicht es, Datentrends mit bestimmten Diensten zu korrelieren und dann deren Zustand zu diagnostizieren, um Ausfälle durch Verhaltensanalyse und Funktionsbewertungen zu verhindern. Dieser Ansatz macht die IT nicht nur zuverlässiger, sondern sorgt auch für ein konsistentes Endbenutzererlebnis.

Entwickler können Telemetriedaten sammeln, um Probleme in neuem Code zu erkennen und zu beheben und frühzeitig im Entwicklungsprozess Erkenntnisse zu gewinnen. Die Kombination von AIOps und Observability kann die Codegenerierung durch Autosuggestion von Snippets und Codezeilen weiter verbessern.

Weitere Vorteile von AIOps und Observability sind:

  • Effektivere Fehlererkennung.
  • Bessere Sicherheitstests und Triage.
  • Verbesserte Quality Assurance (QA).
  • Effektive Fehlersuche für bereits veröffentlichte Produkte.

Herausforderungen bei der Einführung von AIOps und Observability in der IT

Die heutigen KI-Infrastrukturen umfassen sowohl maschinelles Lernen als auch mathematische Modelle. Durch sorgfältige Planung können Unternehmensleiter ein umfassendes Verständnis der Skalierbarkeitsanforderungen erlangen, damit ihre KI-Implementierungen mit der Zeit wachsen können. Sie können jedoch nur dann ausgereifte Anwendungsfälle erreichen, wenn sie mit einem klaren Endziel beginnen und sich dafür entscheiden, die Daten dort zu verarbeiten, wo sie entstehen.

Die Lieferzeiten für die Bereitstellung von KI-Systemen können lang sein, weshalb sich Unternehmen häufig an Cloud-Anbieter wenden. Effektive KI-Implementierungen sind jedoch iterativ und langfristig und erfordern ständig aktualisierte neuronale Netzwerkmodelle, die neue Daten und Muster einbeziehen. Diese Faktoren beeinflussen, ob sich ein Unternehmen für einen Public- oder Hybrid-Cloud-Ansatz entscheidet, bei dem die KI-Hardware möglicherweise vor Ort gehostet wird und ein geeigneter Netzwerk-Backbone mit geringen Latenzzeiten und hohen Bandbreiten erforderlich ist.

Eine weitere Hürde bei der Einführung ist das Training von Algorithmen, die mit mehreren GPUs arbeiten, da sie extrem schnelle Netzwerkverbindungen benötigen, die bis zur Speicherinfrastruktur reichen. IT-Führungskräfte sollten sich jedoch auch darüber im Klaren sein, dass nicht jede KI-Implementierung GPUs erfordert; eine anpassungsfähige und flexible Rechenumgebung ist entscheidend.

Diese Herausforderungen werden noch akuter, wenn IT-Leiter mit der verfügbaren CPU-Leistung, dem Speicher und der Netzwerkbandbreite jonglieren, um ein optimales Gleichgewicht zu erreichen. Die frühzeitige Bewertung möglicher Engpässe ist entscheidend: Da KI im Rechenzentrum angesiedelt ist, müssen DevOps-Teams KI-Ressourcen planen und zwischen IT-Teams, Entwicklern und Datenwissenschaftlern (Data Scientists) aufteilen. Sowohl IT- als auch Unternehmensleiter müssen all diese Variablen berücksichtigen, wenn sie ihre Betriebs- und Entwicklungsprozesse verbessern wollen.

Erfahren Sie mehr über Data-Center-Betrieb

ComputerWeekly.de
Close