Definition

Root Cause Analysis (Fehler-Ursache-Analyse)

Die Root Cause Analysis (Ursachenanalyse oder Fehler-Ursache-Analyse) ist eine Möglichkeit, um zu bestimmen, wie ein problematisches Ereignis aufgetreten ist. Dazu wird untersucht, warum, wie und wann das Problem entstanden ist. Wenn ein System nicht mehr funktioniert oder sich verändert, sollte untersucht werden, wie es zu dem Problem kam. Nur so kann es vollständig analysiert werden. Die Analyse nach den Ursachen ist ein Schritt, der über die Problemlösung hinausgeht. Dies ist eine Korrekturmaßnahme, die durchgeführt wird, wenn ein Problem auftritt.

Risikomanagement

Der Zweck der Root Cause Analysis besteht darin, das Risiko für das gesamte Unternehmen zu reduzieren. Die in diesem Prozess entdeckten Informationen können darüber Aufschluss geben, wie Teams die Zuverlässigkeit von Systemen verbessern. Die wichtigsten Segmente, die von den Informationen profitieren, die durch die Root Cause Analysis entdeckten wurden, sind:

  • Prozessverbesserung
  • Konfigurationsänderungen
  • Systemverbesserungen und
  • Schulung des Personals und Verbesserung des Wissens

Eine Feedback-Schleife von den Problemanalysten zu den Operatoren ermöglicht es einem Unternehmen herauszufinden, welche Ereignisse aufgetreten sind, die ein Problem verursacht haben und wie es in Zukunft zu verhindern ist, falls möglich.

Methoden der Root Cause Analysis

Die gängigste Methode zur Fehler-Ursache-Analyse ist bekannt als die fünf Warum-Fragen: Definieren Sie das Problem und stellen Sie zu jeder Antwort eine Warum-Frage. Suchen Sie weiter, bis Sie wirklich zu den Gründen kommen, die das Warum erklären, was passiert ist. Die Zahl Fünf im Namen der Methode ist nur ein Anhaltspunkt. Denn es bedürfen weniger oder mehr Warum-Fragen, um zu Antworten zu gelangen, die wirklich die Ursache des ursprünglich definierten Problems aufzeigen.

Neben der Fünf-Warum-Fragen-Methode besteht ein weiterer beliebter Ansatz zur Root Cause Analysis darin, ein Ursache-Wirkungs-Diagramm zu erstellen, das auch als Fischgrätendiagramm bezeichnet wird. Hierbei wird das Problem im Kopf der Fischgrätenform definiert, Ursache und Auswirkungen liegen darunter. Mögliche Ursachen sind mit Kategorien verbunden, die alle mit der Wirbelsäule der Fischgräten in Verbindung stehen und einen Überblick darüber geben, in welchen Bereichen, welche Probleme zu dem aufgetretenen Ereignis geführt haben. Es gibt aber auch weitere Methoden zur Root Cause Analysis. Fachleute, die sich auf Ursachenanalyse und Zuverlässigkeitsverbesserung konzentrieren, sollten mehrere Methoden beherrschen, um die richtige für ein bestimmtes Szenario verwenden zu können.

Eine erfolgreiche Root Cause Analysis hängt von einer guten Kommunikation innerhalb der Gruppe und den an einem System beteiligten Mitarbeitern ab. Eine Nachbesprechung nach einer Störung – oft als Obduktion bezeichnet – kann die bereits bekannten Informationen rund um das Ereignis abdecken, so dass alle Beteiligten die Zeitrahmen von zufälligen oder verwandten Faktoren sowie deren Auswirkungen und verwendeten Auflösungsmethoden kennen. Der Post-Mortem-Informationsaustausch kann in ein Brainstorming münden, um festzulegen, was in Bezug auf die Hauptursache untersucht werden muss und wer welche Bereiche übernehmen soll.

Tools zur Root Cause Analysis

Die Fehler-Ursache-Analyse ist ein Prozess durch menschliche Schlussfolgerungen gepaart mit Reporting-Tools. In IT-Organisationen sammeln die Bereiche Überwachung der Anwendungsleistung, Überwachung der Infrastrukturleistung, Systeme für Systemverwaltung und Cloud-Management Daten, um die Ursachen zu analysieren. Einige Anbieter bieten auch Tools an, die die Metriken dieser verschiedenen Tools sammeln und korrelieren, um Wege zur Behebung eines Problems oder eines Ausfallereignisses zu entwickeln. Werkzeuge, die von früheren Ereignissen lernen, um Sanierungsmaßnahmen in der Zukunft vorzuschlagen, fallen in die AIOps-Kategorie (Artificial Intelligence for IT Operations).

Neben Überwachungs- und Analysetools verlassen sich IT-Abteilungen bei der Untersuchung von Ausfallinformationen auch auf externe Quellen. Ein IT-Team überprüft beispielsweise Twitter, um bei einem Ausfall des Cloud-Anbieters auf dem neuesten Stand zu bleiben oder es diskutiert ein Problem in einem Community-Slack-Kanal, um Erfahrungen anderer über die Ursache zu nutzen.

Beispiel einer Root Cause Analysis

Zwei Stunden lang konnten User keine E-Mails senden oder empfangen. Nun möchte der Chef wissen, was passiert ist. Das IT-Team ist mit der Fehler-Ursache-Analyse betraut. Mit der Fünf-Warum-Fragen-Methode nähern sie sich dem Problem:

  1. Warum haben E-Mails nicht mehr funktioniert? Weil der Nachrichtenfluss gestoppt wurde.
  2. Warum hat der Mail-Fluss angehalten? Weil jemand tagsüber Patches installiert hat.
  3. Warum hat dies zu einem zweistündigen Ausfall geführt? Weil ein Patch einen Dienst deaktiviert hat und es während des Stillstands so lange gedauert hat, den Fehler zu lokalisieren und zu beheben.
  4. Warum wurde der Patch tagsüber bereitgestellt? Weil der Administrator die Regeln der IT-Prozesse nicht eingehalten hat, die besagen, nach den Geschäftszeiten zu patchen.

Die Antworten auf die Warum-Fragen geben einen Überblick darüber, was passiert und was schiefgelaufen ist. Auf dieser Grundlage kann das IT-Team Maßnahmen ergreifen, um das Verfahren für Patches zu verbessern und zu verhindern, dass dies in Zukunft wieder geschieht.

Diese Definition wurde zuletzt im Mai 2018 aktualisiert

Erfahren Sie mehr über IT-Berufe und Weiterbildung

ComputerWeekly.de
Close