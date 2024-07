Nachdem Sie für Ihre IT-Infrastruktur eine IT-Monitoring-Strategie erarbeitet haben und ausgewählt haben, welche Metriken Sie im Blick behalten wollen, müssen Sie das IT-Monitoring erfolgreich beibehalten nutzen. Deshalb stellen wir Ihnen Best Practices vor, um das beste Ergebnis mit Ihrem IT-Monitoring zu erreichen.

Ebenso entscheidend sind die Tools, die Sie nutzen. Denn je nach Ihren Anforderungen an die Überwachung eignen sich einige Produkte mehr als andere. Wir zeigen Ihnen, auf welche Kriterien Sie bei der Auswahl achten sollten.

Best Practices für das IT-Monitoring

Das IT-Monitoring ist ein dynamischer Prozess, der regelmäßige Aufmerksamkeit und Unterstützung bei der Datenüberwachung, bei Schwellenwerten und Warnungen, bei der Einrichtung von Visualisierungen oder Dashboards und bei der Integration mit anderen Tools oder Workflows, wie CI/CD und AIOps, erfordert. Machine Learning (ML) und KI können dazu beitragen, einige der anfallenden Routineaufgaben zu erleichtern, aber regelmäßige Aufmerksamkeit ist unerlässlich, um die automatisierten Workflows zu pflegen und das sich entwickelnde ML-Modell zu validieren.

Bedenken Sie die einfache Bedeutung von Schwellenwerten beim IT-Monitoring. Beim Monitoring können statische und dynamische Schwellenwerte verwendet werden. Statische Schwellenwerte werden in der Regel auf der Grundlage von Worst-Case-Situationen festgelegt, zum Beispiel maximale Prozessor- oder Memory-Nutzungsprozentsätze, und können in der Regel anhand von Standardschwellenwerten angepasst werden, die im Monitoring Tool enthalten sind. Ein statischer Schwellenwert wird selten geändert und berücksichtigt keine Schwankungen in der Umgebung. Er gilt für jede Instanz, so dass kritische Probleme leicht über- oder unterbewertet werden können, was dazu führt, dass Probleme übersehen werden oder Fehlalarme auftreten.

Im Vergleich dazu verwenden dynamische Schwellenwerte im Allgemeinen ML, um zu bestimmen, was normal ist, und generieren nur dann Warnungen, wenn der festgelegte Schwellenwert überschritten wird. Dynamische Schwellenwerte können saisonale oder zyklische Trends berücksichtigen und echte Ereignisse besser von Fehlalarmen unterscheiden. Schwellenwerte werden automatisch auf der Grundlage zyklischer Trends und neuer Eingaben angepasst. Dynamische Schwellenwerte sind unvollkommen, und sie können unterbrochen werden, wenn Aktivitäten außerhalb der etablierten Muster auftreten. Daher erfordern dynamische Schwellenwerte immer noch ein gewisses Maß an menschlicher Aufsicht, um sicherzustellen, dass ML und Automatisierung in einer akzeptablen Weise ablaufen.

Insgesamt lassen sich die Best Practices für das Monitoring und Reaktion der Unternehmens-IT in eine Reihe praktischer Richtlinien unterteilen.

1. Konzentrieren Sie sich auf das System und die Anwendungen

Es gibt unzählige Metriken, die gesammelt und analysiert werden können, aber die einzigen Metriken, um die sich die meisten IT-Administratoren kümmern sollten, sind die Metriken, die sich auf die System-, Infrastruktur- und Anwendungsleistung beziehen. Alles andere ist irrelevant oder kann von der IT-Abteilung nicht ohne Weiteres berücksichtigt werden. So hat beispielsweise eine Kennzahl wie Kosten pro Transaktion für IT-Teams nur einen geringen Wert, während sie für Unternehmensleiter von entscheidender Bedeutung sein kann. Umgekehrt ist eine Kennzahl wie die Transaktionslatenz für die Geschäftsleitung vielleicht bedeutungslos, kann aber auch für eine angemessene Leistung und die Einhaltung von SLAs, für die die IT-Teams direkt verantwortlich sind, entscheidend sein.

2. Konfigurieren Sie die Warnungen sorgfältig

Schwellenwerte und Warnmeldungen sind in der Regel die erste Verteidigungslinie, wenn Probleme auftreten. Leiten Sie Warnungen an die am besten geeigneten Teammitglieder weiter und sorgen Sie dafür, dass diese Mitarbeiter zur Verantwortung gezogen werden. Im Idealfall sollte die IT-Abteilung von einem Problem erfahren, bevor ein Vorgesetzter – oder ein Kunde – davon erfährt. Integrieren Sie Warnmeldungen nach Möglichkeit in ein automatisiertes Ticketing- oder Incident-System, um die Zuweisung und Behebung von Problemen zu beschleunigen.

3. Seien Sie bei Warnmeldungen und Berichten selektiv

Überfordern Sie das IT-Personal nicht mit unnötigen oder informativen Warnmeldungen. Konfigurieren Sie nur Warnungen für Messgrößen, die sich direkt auf den IT-Betrieb beziehen, und deaktivieren Sie Warnungen für Messgrößen, auf die die IT-Mitarbeiter keinen Einfluss haben. Dadurch werden Lärm und Stress reduziert, und die Mitarbeiter können sich auf die wichtigsten Warnmeldungen konzentrieren.

4. Stimmen Sie Menschen auf Daten ab

Das Monitoring ist in der Regel eine Teamarbeit, bei der verschiedene Mitarbeiter unterschiedliche Daten sehen und auf diese reagieren. Beispielsweise müssen die Workload-Verantwortlichen möglicherweise Daten und Berichte zu Anwendungstransaktionen oder Umsätzen sehen; IT-Mitarbeiter möchten Infrastrukturmetriken und Kapazitäts-/Leistungsberichte sehen; Helpdesk-Teams sind wahrscheinlich die erste Anlaufstelle für Warnmeldungen. Machen Sie sich klar, wer was sieht und wie die verantwortlichen Personen darauf reagieren werden.

5. Überprüfen und aktualisieren Sie die Monitoring-Pläne

IT-Monitoring-Strategien sind keine statischen Gebilde. Pläne werden oft in formellen Dokumenten kodifiziert und müssen regelmäßig aktualisiert werden, um mit den sich ändernden Geschäftsänderungen, neuen Tools und den sich entwickelnden gesetzlichen und Governance-Anforderungen Schritt zu halten. Überprüfen und aktualisieren Sie die IT-Monitoring-Strategie regelmäßig und stellen Sie sicher, dass der Plan allen Anforderungen gerecht wird.

6. Berücksichtigen Sie die Anforderungen an die Datenaufbewahrung

Bei dem IT-Monitoring kann eine beträchtliche Menge an Daten in Form von Protokolldateien und Metrikdatenströmen anfallen. Alle diese Daten sind Geschäftsdaten und fallen unter die Richtlinien und Praktiken der Datensicherheit, -aufbewahrung und -vernichtung. Berücksichtigen Sie die spezifischen Aufbewahrungsanforderungen für Metriken, KPIs, Protokolle und Warnmeldungen und richten Sie entsprechende Workflows für das Data Lifecycle Management von Monitoring-Daten ein. Im Allgemeinen ist die Aufbewahrungszeit für Monitoring-Daten viel kürzer als für typische Geschäftsdaten, aber die ordnungsgemäße Verwaltung von Monitoring-Daten verhindert Storage-Verschwendung und stärkt die Unternehmensführung.

7. Korrelieren Sie Daten, wo möglich

Suchen Sie nach Möglichkeiten, Daten aus verschiedenen, aber verwandten Metriken zu kombinieren oder zu korrelieren. Die Ermittlung von Korrelation kann dem Unternehmen helfen, Ursache-Wirkungs-Beziehungen zu finden, die die Beobachtbarkeit verbessern und Optimierungsmöglichkeiten aufzeigen. Wenn ein Unternehmen beispielsweise einen Anstieg des Netzwerkverkehrs für eine Anwendung feststellt und gleichzeitig Spitzen bei der Serververzögerung und eine Verschlechterung der Benutzerfreundlichkeit bemerkt, hat es die Grundlage für potenzielle Konfigurations- und Infrastrukturänderungen. Tools mit Analyse-, ML- und KI-Funktionen können oft die besten Ergebnisse bei der Datenanalyse liefern.