Definition

IT-Monitoring (IT-Überwachung)

Unter IT-Überwachung versteht man die Erfassung von Daten über den Betrieb der Hardware und Software einer IT-Umgebung, um sicherzustellen, dass alles wie erwartet funktioniert und Anwendungen und Dienste unterstützt.

Eine grundlegende Überwachung erfolgt durch die Überprüfung des Gerätebetriebs, während eine fortgeschrittene Überwachung detaillierte Einblicke in den Betriebsstatus gibt, einschließlich durchschnittlicher Antwortzeiten, Anzahl der Anwendungsinstanzen, Fehler- und Anforderungsraten, CPU-Auslastung und Anwendungsverfügbarkeit.

Wie die IT-Überwachung funktioniert

Die IT-Überwachung umfasst drei Bereiche, die als Grundlage, Software und Auswertung bezeichnet werden.

Foundation (Basis). Die Infrastruktur ist die unterste Schicht eines Software-Stacks und umfasst physische oder virtuelle Geräte, wie Server, CPUs und VMs.

Die Software. Dieser Teil wird manchmal auch als Überwachungsabschnitt bezeichnet und analysiert, was auf den Geräten in der Basis arbeitet, einschließlich CPU-Nutzung, Last, Speicher und Anzahl der laufenden VMs.

Auswertung. Die gesammelten Metriken werden in Form von Diagrammen oder Datentabellen dargestellt, oft auf einem GUI-Dashboard. Dies wird oft durch die Integration von Tools erreicht, die sich speziell auf die Visualisierung von Datenkonzentrieren.

Die IT-Überwachung kann sich auf Agenten stützen oder agentenlos sein. Agenten sind unabhängige Programme, die auf dem überwachten Gerät installiert werden, um Daten zur Hardware- oder Softwareleistung zu sammeln und an einen Managementserver zu senden. Bei der agentenlosen Überwachung werden vorhandene Kommunikationsprotokolle verwendet, um einen Agenten zu emulieren, der viele der gleichen Funktionalitäten bietet.

Um zum Beispiel die Serverauslastung zu überwachen, installiert ein IT-Administrator einen Agenten auf dem Server. Ein Verwaltungsserver empfängt diese Daten vom Agenten und zeigt sie dem Benutzer über die Schnittstelle des IT-Überwachungssystems an, häufig als Diagramm der Leistung im Zeitverlauf. Wenn der Server nicht mehr wie vorgesehen funktioniert, benachrichtigt das Tool den Administrator, der das Element reparieren, aktualisieren oder ersetzen kann, bis es den Betriebsstandards entspricht.

Überwachung in Echtzeit vs. Trend-Monitoring

Die Echtzeitüberwachung ist eine Technik, bei der IT-Teams Systeme einsetzen, die kontinuierlich Daten sammeln und abrufen, um den aktiven und laufenden Status einer IT-Umgebung zu ermitteln. Die Messungen der Echtzeit-Überwachungssoftware zeigen Daten aus der aktuellen IT-Umgebung sowie aus der jüngsten Vergangenheit, so dass IT-Manager schnell auf aktuelle Ereignisse im IT-Ökosystem reagieren können.

Historische Überwachungsdaten versetzen den IT-Manager in die Lage, die Umgebung zu verbessern oder potenzielle Komplikationen zu erkennen, bevor sie auftreten, da sie ein Muster oder einen Trend in den Daten eines bestimmten Betriebszeitraums erkennen. Bei der Trendanalyse wird ein IT-Ökosystem langfristig betrachtet, um Systembetriebszeiten, die Einhaltung von Service Level Agreements (SLAs) und die Kapazitätsplanung zu ermitteln.

Zwei Erweiterungen der Echtzeitüberwachung sind die reaktive Überwachung und die proaktive Überwachung. Der Hauptunterschied besteht darin, dass die reaktive Überwachung durch ein Ereignis oder Problem ausgelöst wird, während die proaktive Überwachung versucht, Anomalien aufzudecken, ohne auf ein auslösendes Ereignis angewiesen zu sein. Der proaktive Ansatz ermöglicht es den IT-Mitarbeitern, Maßnahmen zu ergreifen, um ein Problem zu beheben, zum Beispiel ein Memory-Versagen, das eine Anwendung oder einen Server zum Absturz bringen könnte, bevor es zu einem Problem wird.

Point-in-Time-Überwachung im Vergleich zur Time-Series-Überwachung: Bei der Point-in-Time-Analyse wird ein bestimmtes Ereignis zu einem bestimmten Zeitpunkt untersucht. Sie kann dazu verwendet werden, ein Problem zu identifizieren, das sofort behoben werden muss, zum Beispiel ein zu 100 Prozent volles Festplattenlaufwerk. Bei der Zeitreihenanalyse werden die Metriken über einen bestimmten Zeitraum hinweg aufgezeichnet, um saisonale oder zyklische Ereignisse zu berücksichtigen und abnormales Verhalten genauer zu erkennen. Die Point-in-Time-Analyse (Zeitpunktanalyse) beruht auf festen Schwellenwerten, während die Zeitreihenanalyse variable Schwellenwerte verwendet, um ein breiteres Bild zu zeichnen und Anomalien besser zu erkennen und sogar vorherzusagen.

Überwachung der IT-Infrastruktur

Bei der Überwachung der IT-Infrastruktur handelt es sich um einen grundlegenden Prozess, bei dem Metriken zur Hardware und Low-Level-Software der IT-Umgebung gesammelt und überprüft werden. Die Überwachung der Infrastruktur liefert einen Maßstab für den idealen Betrieb physischer Systeme und erleichtert so die Feinabstimmung und die Verringerung von Ausfallzeiten und ermöglicht es IT-Teams, Ausfälle, wie beispielsweise einen überhitzten Server, zu erkennen.

Tools zur Server- und Systemüberwachung überprüfen und analysieren Metriken wie Betriebszeit, Betrieb, Leistung und Sicherheit von Servern.

Da immer mehr Unternehmen Cloud Computing nutzen, haben sich auch die Überwachungsfunktionen und -optionen für die Cloud erweitert. Cloud-Kunden können bestimmte Kennzahlen wie CPU-, Arbeitsspeicher- und Speichernutzung einsehen, um die Leistung ihrer Anwendungen zu beurteilen, aber die Art der Cloud-Infrastruktur schränkt den Einblick in die physischen Anlagen ein, auf denen Cloud-Workloads ausgeführt werden.

Die Netzwerküberwachung sucht nach Problemen, die durch langsame oder ausfallende Netzwerkkomponenten oder Sicherheitsverletzungen verursacht werden. Zu den Metriken gehören Antwortzeit, Betriebszeit, Fehler bei Statusanfragen und HTTP/HTTPS/SMTP-Prüfungen.

Die Sicherheitsüberwachung konzentriert sich auf die Erkennung und Verhinderung von Eindringlingen, in der Regel auf Netzwerkebene. Dazu gehören die Überwachung von Schwachstellen, die Protokollierung des Netzwerkzugriffs und die Identifizierung von Verkehrsmustern in Echtzeit, um potenzielle Verstöße zu erkennen.

Überwachung der Anwendungsleistung

Die Überwachung der Anwendungsleistung (Application Performance Monitoring, APM) sammelt Software-Leistungskennzahlen, die sowohl auf der Erfahrung der Endbenutzer als auch auf dem Verbrauch von Rechenressourcen basieren. Beispiele für APM-Metriken sind die durchschnittliche Antwortzeit bei Spitzenlast, Daten zu Leistungsengpässen sowie Last- und Antwortzeiten.

Cloud-Anbieter unterstützen APM-Funktionen weitgehend mit ihren eigenen Tools. Cloud-Kunden können auch aus vielen APM-Tools von Drittanbietern wählen, um Metriken zu Ressourcenverfügbarkeit, Antwortzeiten und Sicherheit zu erhalten.

Die Überwachung von Anwendungen gehört zum Application Performance Management, einem Konzept, das eine umfassendere Kontrolle des Leistungsniveaus einer Anwendung umfasst.

Optionen für IT-Überwachungstools

Einige APM-Anbieter offerieren auch Funktionen zur Überwachung der IT-Infrastruktur und umgekehrt. Andere Tools sind speziell für die Überwachung der Netzwerk- oder CPU-Leistung konzipiert. Einige Überwachungstools verfügen über KI-Funktionen.

Die folgenden Listen zeigen nur einige Beispiele für verschiedene Arten von Überwachungs-Tools. Diese Listen sind jedoch nicht vollständig, und viele Tools verfügen über Funktionen, die typischerweise in anderen Segmenten zu finden sind, wie zum Beispiel KI oder die Fähigkeit, Cloud- und On-Premises-Infrastrukturen zu überwachen.

APM-Tools. BMC TrueSight, Cisco AppDynamics, Datadog, Dynatrace, ManageEngine Applications Manager, Microsoft Azure Application Insights, New Relic und SolarWinds APM.

IT-Infrastruktur-Tools. LogicMonitor, ManageEngine OpManager, Microsoft System Center Operations Manager (SCOM), Nagios XI, SolarWinds, VMware vRealize Operations und Zabbix.

Cloud-Überwachungs-Tools. Amazon CloudWatch, Google Stackdriver (inzwischen in Google Cloud Console aufgegangen), Microsoft Azure Monitor, Cisco CloudCenter und Oracle Application Performance Monitoring Cloud Service.

Tools zur Überwachung von Containern/Microservices/verteilten Anwendungen. Confluent Kafka, Jaeger, LightStep und Prometheus.

AIops-Tools. BigPanda, Datadog, Dynatrace, Moogsoft und New Relic.

Log-Überwachungs-Tools. Elastic Stack, Fluentd, Splunk und Sumo Logic.

Tools zur Überwachung der Netzwerksicherheit. Cisco DNA Analytics and Assurance, LiveAction LiveNX, LogRhythm und PRTG Network Monitor.

Diese Definition wurde zuletzt im Juli 2022 aktualisiert

Erfahren Sie mehr über Datenanalyse

ComputerWeekly.de
Close