yurolaitsalbert - stock.adobe.co

IT-Monitoring-Checkliste für Endpunkt- und Serverüberwachung

Anhand unserer Liste implementieren Administratoren eine Überwachung für Server und Endpunkte – und entscheiden, für welche Fehler sich eine automatisierte Reaktion eignet.

Für Systemhäuser und Anbieter von Managed Services, ist das Monitoring von Servern und die rechtzeitige Benachrichtigung bei Problemen von entscheidender Bedeutung für die Dienstleistungs- und Produktoptimierungen. Es bietet ihnen die Möglichkeit, zusätzliche Einnahmen zu generieren und die Kundenzufriedenheit zu verbessern. Die größte Herausforderung für Verantwortliche ist das Urteil darüber, wann die Überwachung automatisiert erfolgen soll und wann manuelle Eingriffe durch die Mitarbeiter erforderlich sind. Bei der steigenden Komplexität in Monitoring-Prozessen ist ein Überblick besonders wichtig.

Für solche Fälle hat unser Gastautor André Schindler eine Liste mit Empfehlungen für die wichtigsten zu überwachenden Bedingungen für den Gerätezustand, Anwendungen sowie die Sicherheit angefertigt. Die Empfehlungen basieren auf Vorschlägen von Partnern sowie gesammelten Erfahrungswerten im Aufbau praktikabler und effizienter Monitoring-Prozesse.

Korrekte Anwendung der Checkliste

Die folgende Checkliste enthält – ohne Anspruch auf Vollständigkeit – eine genaue Beschreibung einiger zentraler Bedingungen, die in IT-Umgebungen überwacht werden müssen. Sie zeigt außerdem auf, welche Maßnahmen IT-Verantwortliche einleiten können, wenn das System eine Warnung ausgibt. Einige Maßnahmen sind sehr aufwendig, andere Anpassungen wiederum erfordern weniger Zeit, um individuellen Bedürfnissen gerecht zu werden.

Überwachung des Gerätezustands

1. Überwachung von Häufungen kritischer Ereignisse: Das System meldet kritische Ereignisse. Doch nicht jedes davon erfordert das Eingreifen eines Administrators. Es ist daher sinnvoll, einen Schwellenwert ( zum Beispiel mehr als 80 kritische Ereignisse in fünf Minuten) einzustellen, bei dem das System ein Ticket erstellt und die Hilfe eines Administrators anfordert.

2. Ungeplante Neustarts: Ungeplante Neustarts weisen meist auf ein tieferliegendes Problem hin. Das System sollte die Meldungen aus dem Betriebssystem – bei Windows ist das der Microsoft-Windows Kernel-Power-Fehler 41 – erfassen. Diese Metrik ist bei Servern aussagekräftiger als bei Mitarbeitergeräten, da das Fehlverhalten von Nutzern ungeplante Neustarts auslösen kann. Startet der Server ungeplant neu, sollte das System eine Warnung ausgeben und den Eingriff eines Menschen verlangen.

3. Identifizieren fehlerhafter Geräte: Das Monitoring sollte die Systemaktivitätszeit aller Geräte überwachen. Als Schwellenwert für die nächste Aktion eignen sich 30 bis 60 Tage. Danach können Administratoren Arbeitsplätze automatisiert neu starten lassen und bei Servern einen geplanten Neustart terminieren.

4. Auffinden von Offline-Endpunkten: Selbstverständlich sollte das System ständig überwachen, ob alle Geräte wie geplant in Betrieb sind. Dabei kann bei Servern die Zeit bis zur Ausgabe einer Warnung bei wenigen Minuten angesiedelt werden, bei Arbeitsplatzrechnern auf fünf oder mehr Tage. In diesen Fällen sollte das Monitoring einen menschlichen Mitarbeiter warnen, damit er dem Problem auf den Grund geht. Bei Servern ist das erneute Starten über Wake-on-LAN eine Möglichkeit.

5. Überwachung der Hardware nach Änderungen: Unbefugte Änderungen – oder Fehler, die sich als solche tarnen – müssen augenblicklich von einem Mitarbeiter bearbeitet werden. Dazu gehören folgende Ereignisse:

  • Neuer oder geänderter Adapter
  • Neue oder geänderte CPU
  • Neues oder geändertes Laufwerk
  • Neues oder geändertes Arbeitsspeicher

Überwachung von Anwendungen

1. Sind alle relevanten Anwendungen auf einem Endpunkt vorhanden? Das System sollte überprüfen, ob auf den Endpunkten alle erforderlichen Anwendungen für eine bestimmte Nutzergruppe vorhanden sind. Das betrifft

  • nutzerspezifische Geschäftsanwendungen wie AutoCAD, SAP, Photoshop
  • genauso wie nutzerspezifische Produktivitätsanwendungen wie Zoom, Microsoft Teams, DropBox, Slack, Office und Acrobat.
  • Hinzu kommen Werkzeuge für den Support der Nutzer oder Kunden, wie TeamViewer, CCleaner, AutoElevate oder BleachBit.

Die Installation fehlender Programme kann automatisiert stattfinden.

Andre Schindler, Ninja RMM

„Damit Monitoring noch besser gelingt, sollte es in jedem Unternehmen eine Generalvorlage zur Überwachung verschiedener Systeme geben. Darüber hinaus lohnt es sich, mit den eigenen Kunden über deren Prioritäten zu sprechen.“

André Schindler, Ninja RMM

2. Überwachung kritischer Anwendungen (insbesondere für Server): Kritische Prozesse und Services bedürfen einer engmaschigen Kontrolle. Das System sollte bei ungefähr drei Minuten Ausfallzeit die betroffenen Services und Prozesse automatisiert neustarten. Zu diesen kritischen Anwendungen gehören zum Beispiel:

3. Überwachung der Performance-relevanten Ressourcen: Damit Ihre Anwendungen immer möglichst performant laufen, sollten sie genügend Leistung zur Verfügung haben. Benötigen Prozesse wie Outlook, Chrome oder Skype mehr als fünf Minuten 90 Prozent oder mehr der ihnen zugewiesenen Ressourcen, sollte das System eine Warnung an einen Administrator ausgeben und ein Ticket eröffnen. Eine sinnvolle automatisierte Maßnahme ist es, betroffene, nicht essenzielle Prozesse für das Ausführen beim Systemstart zu sperren.

4. Überwachung von Anwendungsabstürzen: Ihre Monitoring-Lösung sollte erkennen, wenn Anwendungen abstürzen und dafür das manuelle Eingreifen eines Administrators anfordern.

Grundlegende Sicherheitsüberwachung

1. Benachrichtigungen, wenn native Sicherheitssoftware deaktiviert wird: Damit Sicherheitssoftware, wie zum Beispiel Windows Firewall nicht versehentlich oder in böswilliger Absicht deaktiviert werden können, sollte das System entsprechende Informationen aus dem Betriebssystem erhalten. Das erneute Aktivieren von Firewalls und anderer Anti-Malware-Software kann automatisch geregelt sein.

2. Erkennen fehlender oder heruntergefahrener Sicherheitsanwendungen: Ihre Überwachungssoftware sollte regelmäßig überprüfen, ob alle erforderlichen Sicherheitsprozesse laufen oder die Sicherheitssoftware installiert ist. Die betroffene Antivirussoftware können sie automatisiert installieren, starten oder neustarten lassen.

3. Überwachung nicht nativ integrierter Antivirussoftware und mit EDR erkannter Gefahren (Endpoint Detection and Response): Ist Ihre Antivirussoftware nicht in Ihre Betriebssysteme nativ integriert, müssen Sie dafür sorgen, dass ausgegebene Warnungen in Ihr Monitoring-System eingespeist werden und bei den Administratoren ankommen.

4. Registrieren gescheiterter Log-In-Prozesse: Versuchen Sich Nutzer an ihre Accounts anzumelden, registriert Ihr Betriebssystem gescheiterte Login-Versuche – sowohl bei lokalen als auch bei Domänenanmeldungen. Bei Windows 10 legen Sie in Sicherheitsrichtlinien fest, dass Logins registriert werden. Stellt das Monitoring-System eine Unregelmäßigkeit in den Windows-Logs fest, muss es des an den Administrator weitermelden, damit dieser Nachforschungen anstellen kann.

5. Überwachung von Benutzerkonten auf Endpunkten: Zu den weiteren Ereignissen, die Sie mit den Sicherheitsrichtlinien überwachen können und die das Eingreifen eines Administrators verlangen gehören:

  • Erstellen von Nutzeraccounts
  • Hinzufügen von Benutzern zu Gruppen mit Sicherheitsberechtigungen
  • Entfernen von Benutzern aus Gruppen mit Sicherheitsberechtigungen

6. Prüfen von Laufwerken auf Verschlüsselung: In Ihrem Überwachungssystem können Sie über Skripte automatisch abfragen lassen, ob und wie Laufwerke verschlüsselt sind. Ist der Status nicht wie erwartet, sollte das System eine Warnung an einen Administrator ausgeben, damit dieser sich um das Problem kümmern kann.

7. Überwachen von Backups: Backup-Systeme oder das Betriebssystem selbst geben Fehlermeldungen aus, wenn ein Sicherungsvorgang fehlschlägt. Sie können die Logs automatisch nach Hinweisen darauf untersuchen. Das ist zum Beispiel

Bei Veeam im Veeam Agent

  • der Fehler-ID 190 sowie ein Text, der [failed] enthält,

bei Acronis im Online Backup System

  • die Fehler-ID 1 sowie ein Text, der [failed] enthält,

und bei Ninja Data Protection

  • die Fehlermeldung Backup-Job failed.

Vorlagen auf die eigenen Bedürfnisse anpassen

Damit Monitoring noch besser gelingt, sollte es in jedem Unternehmen eine Generalvorlage zur Überwachung verschiedener Systeme geben. Darüber hinaus lohnt es sich, mit den eigenen Kunden über deren Prioritäten zu sprechen. Hier können Unternehmen interessante Erkenntnisse über Produktanwendungen, IT-Schmerzpunkte und Problemfelder generieren.

Über den Autor:
André Schindler gründete als General Manager EMEA bei NinjaRMM die EMEA-Niederlassung in Berlin und baute sowohl den Vertrieb als auch den Service in Europa auf. Als Vice President Strategic Partnerships verantwortet er die strategischen Geschäfts- und Technologiepartnerschaften einschließlich der Planung und Ausführung von Go-to-Market-Strategien.

Vor seinem Einstieg bei NinjaRMM wirkte André Schindler neuneinhalb Jahre in unterschiedlichen leitenden Funktionen für TeamViewer in den Bereichen Vertrieb, Konzernentwicklung, Value Creation und Strategische Partnerschaften. An der Universität Bayreuth studierte er Bioingenieurwissenschaften mit Schwerpunkt Medizintechnik und Medikamentendesign.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Data-Center-Betrieb

ComputerWeekly.de
Close