Definition

IT-Incident-Management (Vorfallsmanagement)

Das Incident-Management, zu deutsch IT-Vorfalls- oder Störungsmanagement, ist ein Bereich des IT-Service-Managements (ITSM). Das Ziel ist es, nach einer Störung den Normalzustand eines Service so schnell wie möglich wiederherzustellen, und zwar so, dass möglichst wenig negative Auswirkungen auf das Geschäft erzeugt werden.

Ein Vorfall ist ein unerwartetes Ereignis, das den normalen Betrieb eines IT-Service stört, während ein Problem die Ursache von Vorfällen sein kann. Das Problemmanagement unterscheidet sich also vom Vorfallsmanagement dadurch, dass ersteres auch Probleme behandelt, die keine Vorfälle auslösen oder umgekehrt, das Vorfallsmanagement manchmal Vorfälle behandelt, ohne das eigentliche Problem zu lösen.

Das IT-Vorfallsmanagement hilft einer Organisation, auf unerwartete Hardware-, Software- und Sicherheitsfehler vorbereitet zu sein. Außerdem soll es die Dauer und den Schweregrad der Unterbrechung des Betriebs durch diese Vorfälle reduzieren. Es kann einem etablierten ITSM-Modell folgen, wie zum Beispiel ITIL (Information Technology Infrastructure Library) oder COBIT, oder auf einer Kombination von Richtlinien und Verfahren basieren, die sich im Laufe der Zeit bewährt haben.

Prozesse im IT-Vorfallsmanagement

In der Praxis stützt sich das IT-Vorfallsmanagement häufig auf temporäre Workarounds, damit die Dienste wieder zur Verfügung stehen, während das Personal den Vorfall untersucht, die Ursache ermittelt und eine dauerhafte Lösung entwickelt und umsetzt. Die spezifischen Arbeitsabläufe und Prozesse im IT-Vorfallsmanagement unterscheiden sich je nach Arbeitsweise der einzelnen IT-Organisationen.

Die meisten Arbeitsabläufe im IT-Vorfallsmanagement beginnen damit, dass Benutzer und IT-Mitarbeiter Hinweise auf einen zukünftigen Ausfall – beispielsweise eine Verlangsamung des Netzwerks, präventiv melden. Das IT-Personal isoliert den Vorfall, um potenzielle Probleme in anderen Bereichen des Betriebs zu verhindern. Dann findet es eine vorübergehende Ausweichlösung oder implementiert eine Lösung zur Wiederherstellung des Systems und gibt das System wieder für die Produktionsumgebung frei. Das IT-Personal überprüft und protokolliert den Vorfall dann zur späteren Verwendung.

Die Dokumentation ermöglicht es den IT-Mitarbeitern, bisher unbemerkte und wiederkehrende Trends bei Vorfällen zu erkennen und diese zu beheben. Wenn eine provisorische Lösung vorhanden ist, können die Mitarbeiter, sobald die Störung für die Endbenutzer behoben ist, eine langfristige Lösung für das Problem entwickeln.

Workflow im Incident-Management
Abbildung 1 : Der Vorfallsmanagement-Workflow lässt sich in verschiedene Pfade aufteilen, je nach Art des Vorfalls.

Die Konzentration auf IT-Prozesse zur Verwaltung von Vorfällen und etablierte Best Practices minimiert die Dauer eines Vorfalls und verkürzt die Wiederherstellungszeit. Dies hilft außerdem, zukünftige Probleme zu verhindern.

Die ITIL-Prozesse bieten eine wichtige Größe zur Orientierung im IT-Vorfallsmanagement. ITIL, ist ein weit verbreitetes ITSM-Framework von Axelos. Beim Vorfallsmanagement gemäß ITIL kommt ein Workflow zur möglichst effizienten Gestaltung des Lösungswegs zum Einsatz: Identifizieren des Vorfalls, Protokollierung, Kategorisierung, Priorisierung, Antwort, Diagnose, Eskalation, Lösung und Wiederherstellung. Dann erfolgt der Abschluss.

Arten von Vorfällen

Vorfälle werden im Allgemeinen nach niedriger, mittlerer und hoher Priorität kategorisiert. Vorfälle die den Endbenutzer nicht daran hindern, seine Arbeit trotz des Problems abzuschließen erhalten eine niedrige Priorität. Vorfälle mittlerer Priorität behindern den Endanwender in seiner Arbeit, aber die Störung ist entweder geringfügig oder kurz. Vorfälle mit hoher Priorität sind jedoch Probleme, die eine große Anzahl von Endbenutzern betreffen und das ordnungsgemäße Funktionieren eines Systems stark einschränken.

Vorfälle werden der Hardware, Software oder Sicherheit zugeordnet, wobei zum Beispiel Probleme mit der Leistung oft aus einer Kombination dieser Bereiche resultieren. Zu Softwarevorfällen gehören in der Regel Probleme mit der Verfügbarkeit der Dienste oder Bugs in Anwendungen. Zu den Hardwarevorfällen gehören ausgefallene oder nur noch eingeschränkt verfügbare Ressourcen, Netzwerkprobleme oder andere Systemausfälle. Sicherheitsvorfälle sind versuchte und laufende Angriffe, die darauf abzielen, Daten zu kompromittieren oder zu verletzen. Der unbefugte Zugriff auf personenbezogene Daten ist beispielsweise ein Sicherheitsproblem.

Rollen im Vorfallsmanagement

Das IT-Vorfallsmanagement ist normalerweise in drei Supportebenen unterteilt, die in der Regel über den Help- oder Service-Desk erreicht werden. Die meisten Organisationen verwenden ein Supportsystem, wie zum Beispiel ein Ticketing-System, zur Kategorisierung und Priorisierung von Vorfällen. Das IT-Personal reagiert auf jeden Vorfall gemäß seiner Prioritätsstufe.

Support auf Level 1 bietet in der Regel Support oder Hilfe auf einem basalen Level, beispielsweise das Zurücksetzen von Passwörtern oder das Troubleshooting von PCs. Support der Stufe 1 umfasst die Identifizierung, Protokollierung, Priorisierung und Kategorisierung von Vorfällen, wenn nötig die Eskalation auf Stufe 2 und gegebenenfalls die Lösung. Der Support auf Level 2 durchläuft einen ähnlichen Prozess für komplexere Probleme, die eine zusätzliche Schulung, mehr Fähigkeiten oder eine höhere Sicherheitsfreigabe erfordern. Größere Vorfälle werden an den Support der Stufe drei weitergeleitet. Zu dieser Kategorie gehören Vorfälle, die den Betrieb eines Unternehmens stören, die eine hohe Priorität aufweisen und eine sofortige Reaktion erfordern. Ein Beispiel hierfür wäre ein Problem mit dem Netzwerk, zu dessen Lösung Experten oder ein qualifiziertes Team erfordert werden.

Den Level-1-Support übernimmt ein Team von Technikern, die für die Lösung häufiger Vorfälle und die Erfüllung grundlegender Serviceanforderungen ausgebildet sind. Der Support der Stufe 2 wird von IT-Mitarbeiter mit spezifischen Kenntnissen des betreffenden Systems übernommen. Die Mitglieder des Support-Teams der Stufe 3 sind in der Regel Spezialisten für bestimmte Sorten von Problemen. Zu einem Support-Team der Stufe 3 könnten beispielsweise auch der Chefarchitekt und die Ingenieure gehören, die am täglichen Betrieb und an der Wartung des Produkts oder Service beteiligt sind.

Ein Vorfallsmanager sorgt für die Durchsetzung der richtigen Reaktions- und Managementprozesse bei einem Vorfall. Er kann an der Wahl des ITSM-Modells des Unternehmens beteiligt sein. Zu seinen Aufgaben gehören auch die laufende Verbesserung der Prozesse, mit denen Vorfälle im Unternehmen verhindert und behandelt werden sowie eine strategische Minderung von Risikos. Der Vorfallsmanager fungiert mitunter auch bei Störungen, wie zum Beispiel dem Ausfall des E-Mail-Systems, als Kommunikationsbrücke zwischen Endanwendern und technischen Spezialisten. Er erstellt zusammen mit den Mitarbeitern des Service-Desk Berichte über Vorfälle im Zusammenhang mit zentralen Geschäfts- und IT-Diensten und kann bei größeren Vorfällen eine Post-Mortem-Analyse veranlassen oder durchführen. Er führt auch eine Wissensdatenbank mit Problemen und Vorfällen.

In DevOps-Organisationen werden Softwareentwickler unter dem Mantra You build it, you own it für produktionsfertigen Code verantwortlich gemacht. Im Falle eines Softwarevorfalls wird folglich vom Entwickler erwartet, dass er sich am Vorfallsmanagement beteiligt oder dieses leitet.

Werkzeuge für das Vorfallsmanagement

Helpdesk- und Vorfallsmanagement-Teams verlassen sich auf eine Mischung aus Tools: Überwachungs-Tools zur Erfassung von Betriebsdaten, Systeme zur Ursachenanalyse sowie Vorfallsmanagement- und Automatisierungsplattformen.

Überwachungs-Tools ermöglichen es dem IT-Personal, Betriebsdaten aus mehreren Systemen, wie zum Beispiel firmeninterner oder Cloud-basierter Hardware und Software, abzurufen. Tools zur Ursachenanalyse helfen beim Sortieren von Betriebsdaten, zum Beispiel Protokollen, die von Tools für das Systemmanagement, die Überwachung der Anwendungsleistung und die Überwachung der Infrastruktur gesammelt wurden. Tools zur Ursachenanalyse helfen zu verstehen, wie ein System funktioniert und dadurch, Fehler zu lokalisieren.

Tools zur Reaktion auf Vorfälle korrelieren diese Überwachungsdaten und erleichtern die Reaktion auf Ereignisse, in der Regel durch einen ausgeklügelten Eskalationspfad und die angeleitete Dokumentation des Reaktionsprozesses.

ITSM-Servicedesk-Tools helfen bei der Protokollierung von Daten zum Vorfall, seiner Ursache und der Schritte, die zur Lösung des Vorfalls unternommen wurden. ServiceNow und Zendesk sind zwei wichtige Anbieter in diesem Bereich.

Diese Definition wurde zuletzt im März 2020 aktualisiert

Erfahren Sie mehr über IT-Management

ComputerWeekly.de
Close