Free1970 - stock.adobe.com

Mean Time To Repair: So berechnen und reduzieren Sie die MTTR

Die Mean Time To Repair ist eine wichtige Kennzahl für Business Continuity und Disaster Recovery. Es gibt verschiedene Wege, wie Sie die MTTR berechnen und reduzieren können.

Fachleute für Business Continuity und Disaster Recovery brauchen eine Möglichkeit, um festzustellen, wie lange es dauert, etwas zu reparieren, egal ob es sich um einen Geschäftsprozess, ein IT-System oder eine Hardwarekomponente handelt. MTTR ist eine hilfreiche Metrik, auf die sie sich verlassen können.MTTR steht für Mean Time To Repair und lässt sich lose als mittlere Reparaturzeit überstzen lässt.

Die MTTR ist eine weit verbreitete Kennzahl, mit der die durchschnittliche Zeit geschätzt wird, die ein System wahrscheinlich für eine Reparatur benötigt, bevor es den normalen Betrieb wieder aufnehmen kann. Manchmal wird sie auch als mittlere Zeit bis zur Behebung, Wiederherstellung oder Reaktion bezeichnet.

Unabhängig davonvon der Bezeichung, je niedriger der MTTR-Wert ist, desto einfacher ist das Problem zu beheben. Bei der Verwaltung von Systemen, Technologien oder Prozessen besteht das Ziel darin, die durchschnittliche Zeit, die für eine Reparatur benötigt wird, zu verringern. Wenn die MTTR eines Systems beispielsweise 0 beträgt, werden die Benutzer viel weniger Ausfallzeiten erleben als bei einem System mit einem positiven MTTR-Wert.

Wenn das Ziel ein unterbrechungsfreier Betrieb ist, bedeutet ein niedriger MTTR-Wert, dass das betreffende Element – falls es ausfällt – relativ leicht zu reparieren ist und nur minimale Zeit benötigt, um zum normalen Betrieb zurückzukehren. In diesem Artikel erfahren Sie, wie Sie die MTTR reduzieren können, warum es wichtig ist, diese Kennzahl niedrig zu halten, und Sie erhalten einige Tipps zur Berechnung der MTTR.

So können Sie die MTTR reduzieren

Eine niedrige MTTR bedeutet, dass ein System oder ein Prozess gut funktioniert, und das ist besonders wichtig für BC/DR-Experten (Business Continuity and Disaster Recovery).

Die Verringerung der MTTR für bestimmte Elemente beginnt mit der Festlegung einer Basis-MTTR, die den Ausgangspunkt bildet. Nachfolgende MTTR-Berechnungen, die mit der Basislinie verglichen werden, zeigen BC/DR-Teams und Administratoren, ob Fortschritte bei der System- und Prozessleistung erzielt wurden.

Es gibt mehrere Maßnahmen, die ein Unternehmen ergreifen kann, um die MTTR-Werte kritischer Vorgänge zu senken. Im Folgenden werden zehn Möglichkeiten zur Verfolgung und Reduzierung der MTTR aufgeführt:

  1. Aufbau und Pflege eines Vorrats an Ersatzteilen und Komponenten für den Fall, dass eine Produktionskomponente ausfällt.
  2. Führen Sie regelmäßige Tests und Leistungsüberprüfungen durch, um sicherzustellen, dass die Systeme funktionieren.
  3. Führen Sie eine Business Impact Analysis durch, um festzustellen, welche Systeme und Prozesse am kritischsten sind, und berechnen Sie die MTTR, um deren Leistung zu überwachen.
  4. Fügen Sie MTTR zu anderen Leistungskennzahlen hinzu, zum Beispiel zu den Recovery Time Objectives (RTO) und Recovery Point Objectives (RPO).
  5. Stellen Sie einen optimierten Notfallplan (Incident Response Plan) auf, der unternehmenskritische Anlagen schützt und eine schnelle Reaktion auf Störungen ermöglicht.
  6. Bilden Sie spezielle Schnellreaktionsteams, die auf System- und Prozessausfälle über ein Störungsreaktionsteam hinaus reagieren.
  7. Installieren Sie Überwachungssysteme mit Sensoren, die Warnungen ausgeben, wenn Systeme nicht mehr ordnungsgemäß funktionieren.
  8. Rationalisierung der Helpdesk-Ressourcen zur Vereinfachung des Meldeprozesses, einschließlich der Problemerkennung und der Einreichung von Tickets.
  9. Umfassende Schulung der Reparaturteams für Geräte und Schulung des Personals für den Fall, dass diese Teams nicht verfügbar sind.
  10. Aktualisierung des Änderungsmanagementprozesses der Organisation, um die Fehleranfälligkeit zu minimieren.

Warum ist eine niedrige MTTR wichtig?

MTTR ist ein entscheidendes Element in BC/DR-Plänen und kann zu einer wichtigen Kennzahl werden, um sicherzustellen, dass die Systeme ohne Unterbrechung funktionieren.

Bei Anlagen mit einer niedrigen MTTR ist die Wahrscheinlichkeit eines Ausfalls geringer, und wenn sie ausfallen, dauert die Wiederherstellung und Wiederaufnahme des normalen Betriebs nur wenig Zeit. Stellen BC/DR-Teams dagegen fest, dass ein System eine hohe MTTR hat, zum Beispiel vier bis fünf Tage, sollten sie es wahrscheinlich ersetzen.

Updates und neuere Komponenten sind weitere Möglichkeiten, die MTTR eines bestehenden Systems zu verringern. Die Unternehmensleitung muss entscheiden, ab wann eine hohe MTTR einen vollständigen Austausch oder eine Neukonzeption des Elements erforderlich macht.

So berechnen Sie die MTTR

MTTR ist ein Durchschnittswert aus der Analyse mehrerer Elemente. Für einen bestimmten Zeitraum, zum Beispiel einen Tag, eine Woche oder einen Monat, und für jede von der IT durchgeführte Reparatur wird die für die jeweilige Reparatur benötigte Zeit zu anderen, ähnlichen Reparaturwerten addiert. Dieser Wert, der in der Regel in Stunden ausgedrückt wird, wird dann durch die Anzahl der ungeplanten oder nicht geplanten Reparaturereignisse während des Analysezeitraums geteilt, as heißt durch alle Ereignisse, die eine Reparatur erfordern, die nicht geplant war. Geplante Wartungszeitrahmen werden bei MTTR-Berechnungen nicht berücksichtigt.

Abbildung 1: Mit dieser Gleichung lässt sich die MTTR kalkulieren.
Abbildung 1: Mit dieser Gleichung lässt sich die MTTR kalkulieren.

In der Praxis wenden die BC/DR-Teams diese Berechnung auf eine Reihe von reparaturbedürftigen Ereignissen an. So erhalten sie die MTTR. Damit ist es einfacher, sich ein Bild davon zu machen, um wie viel die MTTR reduziert werden muss oder ob die derzeitigen Systeme ausreichend sind.

Abbildung 2: In diesem Beispiel wird die MTTR von fünf Störungsereignissen berechnet.
Abbildung 2: In diesem Beispiel wird die MTTR von fünf Störungsereignissen berechnet.

Diese Berechnung scheint zwar relativ einfach zu sein, und BC/DR-Teams können sie leicht mit einer Tabellenkalkulation konfigurieren, aber es können auch Fehler auftreten. So geht die MTTR-Gleichung beispielsweise davon aus, dass die Aufgaben von entsprechend geschultem Personal nacheinander ausgeführt werden. Wenn die Reihenfolge der Aufgaben geändert wird, wenn mehrere Aufgaben gleichzeitig ausgeführt werden oder wenn die Person, die die Aufgaben ausführt, nicht richtig geschult ist, kann die Berechnung falsch sein.

MTTR vs. MTBF

Häufig wird MTTR in Verbindung mit der mittleren Zeit zwischen zwei Ausfällen verwendet. MTBF (Mean Time Between Failures, mittlere Zeit zwischen Ausfällen) ist eine weitere wichtige Leistungs- und Wartungskennzahl für BC/DR-Teams.

MTTR befasst sich mit der durchschnittlichen Zeit, die für eine Reparatur benötigt wird, während MTBF die durchschnittliche Zeit zwischen dem Auftreten von System- und Prozessausfällen angibt. Diese Kennzahl gibt Aufschluss über die Zuverlässigkeit eines Systems oder Prozesses.

Ein höherer MTBF-Wert bedeutet, dass die Wahrscheinlichkeit eines System- oder Prozessausfalls geringer ist, es aber dennoch zu seltenen Ausfällen kommen kann. Wenn ein System beispielsweise einen MTBF-Wert von fünf bis 10 Stunden hat, sind Ausfallzeiten weitaus wahrscheinlicher als bei einem MTBF-Wert von ein bis zwei Jahren. Technologieexperten streben einen möglichst hohen MTBF-Wert an, müssen aber auf häufigere Ausfälle vorbereitet sein.

Sowohl MTTR als auch MTBF geben Aufschluss über die Leistung und Zuverlässigkeit eines Systems, Prozesses oder einer anderen Aktivität. Die Werte für jede Metrik können, wie beschrieben, auf Situationen hinweisen, in denen Abhilfemaßnahmen erforderlich sind.

Erfahren Sie mehr über Disaster Recovery