.shock - stock.adobe.com

Gängige Irrtümer und Tipps zum Management von IT-Vorfällen

Wenn in der IT etwas so richtig schief geht, kommt es bei der Reaktion darauf immer wieder zu vermeidbaren Fehlern. Mit der Anwendung von Best Practices lässt sich dies umgehen.

Wenn IT-Aktivitäten schiefgehen, müssen Admins genau wissen, welche Maßnahmen am schnellsten zu Erfolg führen, um ihre Rechenschaftspflichten zu erfüllen und um wieder für Effizienz und Zuverlässigkeit zu sorgen. Dabei dürfen sie sich nicht von verbreiteten IT-Irrtümern und -Mythen fehlleiten lassen.

Einer der wichtigsten Punkte bei der Arbeit eines Admins ist der Umgang mit IT-Fehlern. Die Unternehmensführung bewertet die Aktivitäten der IT-Abteilung häufig danach, welche Maßnahmen sie unternimmt, wenn etwas schiefgeht, und nicht danach, wie lange die Systeme fehlerfrei laufen. Ein guter Vorfallreaktionsplan ist daher von entscheidender Bedeutung.

Die drei im Folgenden vorgestellten typischen Fallen sollten daher umgangen werden. Sonst kann der Ruf der IT-Abteilung durchaus beschädigt werden. Besser ist, bewährte Vorgehensweisen anzuwenden. Die drei verbreiteten Irrtümer und die damit zusammen hängenden vorgestellten Maßnahmen beziehen sich auf nahezu beliebige IT-Vorfälle, die passende Reaktion und zuletzt, wie Sie am besten damit umgehen, um schwerwiegende Auswirkungen zu vermeiden.

Das Problem aufspüren und erkennen

Gängiger Irrtum: Berichten Sie nur über größere Probleme, über die die Mitarbeiter sich beschweren. Ansonsten steht die IT-Abteilung schlecht da, weil angenommen wird, dass sie ihre Aufgaben nicht im Griff hat.

Empfohlene Best Practice: Registrieren Sie stattdessen jeden Fehler und jede Einschränkung eines Dienstes und berichten Sie darüber. Sorgen Sie dafür, dass diese Information jedem zur Verfügung steht, der sie benötigt, insbesondere aus der Unternehmensleitung.

Im Idealfall identifiziert und behebt die IT-Abteilung ein Problem oder einen Vorfall so schnell und gründlich wie nur möglich, um die Ausfallzeiten für die Endanwender so gering wie möglich zu halten. Wenn Sie einen Fehler entdecken, bevor ihn ein Anwender meldet, können Sie ihn manchmal schon beheben, bevor er überhaupt bemerkt wird. Die IT-Mitarbeiter sollten deswegen Monitoring-Tools einsetzen, um die Qualität der angebotenen Dienste zu überwachen. Dazu eignen sich entweder intern entwickelte Skripte oder auch externe Werkzeuge, wie von SolarWinds oder der System Center Service Operations Manager von Microsoft. Verwenden Sie am besten, was in Ihrer IT-Umgebung funktioniert, was in Ihr Budget passt und was Ihre Mitarbeiter kennen.

Die eingesetzten Tools zum Monitoring und Management der Systeme sollten Berichte über alle Ausfälle in einer bestimmten Zeitspanne erstellen können. Es mag verlockend sein, diese Reports nicht öffentlich zu machen. Das sollten Sie jedoch nicht tun. Stehen Sie zu diesen Berichten und den in ihnen dokumentierten Ausfällen. Warum ist empfiehlt sich diese Vorgehensweise? Wenn Sie diese Best Practice befolgen, wird das Ihr Team dazu zwingen, das Warum und Wie jedes Ausfalls genauer zu verstehen und passende Lösungen für fortbestehende Probleme zu finden, anstatt nur auf schnelle Fehlerbehebungen zu setzen.

Wenn Sie mehr Geld oder Ressourcen benötigen, um ein bestimmtes Problem zu beheben, dann zeigen diese historischen Belege außerdem die tatsächlichen Auswirkungen, die ein Vorfall oder ein Trend auf Ihr Unternehmen haben. Ausgerüstet mit diesen Informationen und dem Willen, die Dinge zu verbessern, sind Sie in einer weit besseren Position als eine IT-Organisation, die versucht, ihre Probleme zu verbergen.

Den Betrieb wieder aufnehmen

Gängiger Irrtum: Jede Reparatur ist eine gute Reparatur.

Empfohlene Best Practice: Eine mangelhaft durchdachte und verfrüht umgesetzte Reparatur kann zu noch weit schwerwiegenderen Problemen führen. Es empfiehlt sich, schnelle Maßnahmen nur anzuwenden, wenn permanente Lösungen nicht möglich sind.

Wenn die Telefone des Helpdesks heiß laufen und die Unternehmensführung bereits mindestens eine wütende E-Mail mit der Forderung einer umgehenden Lösung des Problems geschrieben hat, stehen Sie unter enormem Druck. In dieser Situation passiert es schnell, dass Sie sich gezwungen fühlen, einfach nur irgendetwas in der Hoffnung zu unternehmen, dass sich damit die Probleme wieder in Luft auflösen. Das ist aber der Zeitpunkt, an dem sich die Situation schnell von schlecht zu katastrophal verändern kann. Beispielsweise, wenn die IT-Mitarbeiter beim Versuch einer Reparatur versehentlich eine wichtige Datenbank überschreiben, anderweitig wichtige Daten löschen oder einen unternehmenskritischen Dienst mit ein paar Klicks und Eingaben auf Dauer schädigen.

Wie bei jeder Aufgabe, die Sie in einer Live-Umgebung tätigen, müssen Sie genau verstehen, was Sie gerade tun. Dazu zählt das Wissen, warum Sie es tun und wie Sie im Zweifel wieder zur Ausgangssituation zurückkehren, wenn etwas dabei schiefgehen sollte. Manchmal reicht es schon, vorher einen Snapshot einer virtuellen Maschine (VM) anzufertigen, bevor Sie eine Änderung durchführen, die das Problem beheben soll. Nur für den Fall, dass dabei ebenfalls etwas schiefläuft. Wenn Sie tägliche Backups durchführen, erstellen Sie eine weitere, inkrementelle Sicherung, die dann notfalls für eine eventuell benötigte Wiederherstellung bereitsteht.

Reparieren Sie das Problem, aber schützen Sie das IT-Team und das Unternehmen mit allen benötigten und zur Verfügung stehenden Vorsichtsmaßnahmen. Versuchen Sie am besten darüber nachzudenken, wie Sie das Problem angehen würden, wenn Sie nicht gerade dabei wären, den Notfall zu beheben. Seien Sie dabei bestrebt, so viele Häkchen wie möglich Ihres Notfallplans setzen zu können. Der Trick ist dabei, die richtige Balance aus Geschwindigkeit und Begrenzung des Risikos zu finden.

Nach der Reparatur planvoll vorgehen

Gängiger Irrtum: Sie haben das Problem überstanden und alles auf dem Dashboard ist wieder grün. Weiter geht es mit der nächsten Aufgabe.

Empfohlene Best Practice: Nachdem Sie alle betroffenen Personen darüber informiert haben, dass der Dienst wieder normal funktioniert, führen Sie eine ausführliche Post-Mortem-Analyse durch.

Die Erleichterung über die Wiederherstellung eines Dienstes ist meist groß. Der Erfolg muss aber in weiteren Aufgaben münden. Diese Best Practice bei der Reaktion auf einen IT-Vorfall lässt sich in mehrere Schritte aufteilen: Fassen Sie noch einmal zusammen, was geschehen ist. Informieren Sie alle betroffenen Mitarbeiter über die Gründe des Vorfalls und welche Lösung gefunden werden konnte. Legen Sie zuletzt noch fest, welche Maßnahmen die Auswirkungen eines vergleichbaren oder desselben Fehlers reduzieren oder ihn in Zukunft sogar komplett verhindern können. Diese so genannte Post-Mortem-Analyse ist auch ein guter Zeitpunkt, um über gewonnene Erkenntnisse zu sprechen und um herauszufinden, ob sich diese Erfahrungen auch auf andere Dienste übertragen lassen.

Ohne diese Folgemaßnahmen und -analysen bleiben unbekannte Gefahren bestehen. Was ist, wenn die Reparatur zu künftigen Problemen führt? So werden eventuell Daten, die auf eine andere Festplatte kopiert wurden, möglicherweise nicht mehr überwacht, so dass niemand automatisch informiert wird, wenn dort der Speicherplatz knapp wird. Noch schlimmer ist es, wenn die Platte nicht teil des automatischen Backups ist. Manche Reparaturen und Fehlerbehebungen erfordern zudem eine geplante Ausfallzeit, um alle betroffenen Dienste und Prozesse wiederherzustellen. Da jede Situation anders ist, sorgen Sie dafür, dass alle verantwortlichen IT-Mitarbeiter in die Prozesse und die getroffenen Entscheidungen einbezogen werden.

Im Nachhinein ist es relativ leicht, die Probleme in Ruhe zu analysieren und herauszufinden, was anders hätte gemacht werden können. Allerdings bleiben diese bewährten Best Practices immer wieder auf der Strecke, wenn es um das Management von IT-Vorfällen und die verbreiteten Irrtümer geht, die damit zusammenhängen. Nehmen Sie sich die benötigte Zeit, um Ihre Prozesse zu überarbeiten und um mit Ihren Mitarbeitern zu besprechen, wie Sie in Zukunft besser auf Vorfälle reagieren können. So vermeiden Sie, dass sich schlechte Gewohnheiten einschleichen und verbessern zudem die Zuverlässigkeit Ihrer IT-Infrastruktur.

Folgen Sie SearchSecurity.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Das macht einen guten Vorfallreaktionsplan aus

Bei der Reaktion auf Vorfälle die Cloud-Dienste berücksichtigen

IRaaS: Reaktion auf Sicherheitsvorfälle als Dienstleistung einkaufen

Erfahren Sie mehr über IT-Sicherheits-Management

ComputerWeekly.de
Close