Elnur - stock.adobe.com

So berechnen Sie die maximale tolerierbare Ausfallzeit

Das Berechnen der maximal zulässigen Ausfallzeit ist mehr als eine einfache Gleichung. Erfahren Sie, warum sie wichtig ist, wie sie variiert und woraus sie sich zusammensetzt.

Heutzutage ist die Vermeidung von Ausfallzeiten aufgrund einer Betriebsunterbrechung das ideale Ziel aus Unternehmenssicht. Leider ist das nicht immer möglich oder realistisch. Zwischen wetterbedingten Ausfällen und der Zunahme von Cyberangriffen geht es den Verantwortlichen in den Unternehmen immer weniger darum, Ausfallzeiten (Downtime) zu vermeiden, sondern vielmehr darum, sie zu reduzieren.

Die maximal zulässige Ausfallzeit, die auch als maximal tolerierbare Ausfallzeit (Maximum Tolerable Downtime, MTD) bezeichnet wird, ist die absolut längste Ausfallzeit, die ein Unternehmen tolerieren kann, bevor es mit ernsthaften Auswirkungen konfrontiert wird. Dazu können Geschäftseinbußen oder Rufschädigung gehören.

Um sich auf potenzielle Krisen vorzubereiten, müssen Disaster-Recovery-Teams (DR-Teams) wissen, wie sie die maximal zulässige Ausfallzeit berechnen und wie sie Ausfallzeiten effektiv verwalten können.

Berechnung der maximal zulässigen Ausfallzeit

Die maximal zulässige Ausfallzeit gibt an, wie lange ein Unternehmen die Abwesenheit oder Nichtverfügbarkeit einer bestimmten Unternehmensfunktion maximal tolerieren kann. Verschiedene Geschäftsfunktionen werden wahrscheinlich unterschiedliche Antworten auf die Gleichung der zulässigen Ausfallzeit haben. Je kritischer die Funktion ist, desto kürzer ist die maximal zulässige Ausfallzeit.

Die Ausfallzeit einer Geschäftsfunktion basiert auf zwei Elementen: der System- oder Technologie-RTO (Recovery Time Objective) und der personengebundenen Arbeitswiederherstellungszeit (Work Recovery Time, WRT). Die Formel für die maximal zulässige Ausfallzeit lautet demnach wie folgt:

Maximal zulässige Ausfallzeit = RTO + WRT

Wenn beispielsweise für einen kritischen Geschäftsprozess eine maximal zulässige Ausfallzeit von drei Tagen gilt, könnte die RTO für Systeme, Netzwerke und Daten einen Tag betragen. Dies ist die Zeit, die das Unternehmen für die Wiederherstellung der Technologie benötigt. Die verbleibenden zwei Tage sind für die Wiederherstellung der Arbeit vorgesehen.

Das Diagramm (Abbildung 1) veranschaulicht die Beziehung zwischen den Metriken, die die maximal zulässige Ausfallzeit ausmachen.

Abbildung 1
Abbildung 1

In der Abbildung sichert das Unternehmen vor dem Eintreten eines Zwischenfalls die geschäftskritischen Daten und Systeme und führt die Geschäftsfunktionen wie gewohnt aus. Die folgenden vier Zeitpunkte sind der Schlüssel zur Analyse der MTD.

Punkt 1: Recovery Point Objective (RPO). Der maximal vertretbare Datenverlust auf der Grundlage von Sicherungsplänen, Datenanforderungen und Systemverfügbarkeit.

Sobald die Störung auftritt, leitet das Unternehmen Maßnahmen zur Behebung der Störung ein (Incident Response). Wenn die Störung nicht schnell unter Kontrolle gebracht werden kann, leiten die DR-Teams Daten- oder Disaster-Recovery-Aktivitäten ein, um den Betrieb so schnell wie möglich wieder zu normalisieren.

Punkt 2: Recovery Time Objective (RTO). Dies ist die Zeitspanne, die ein Unternehmen benötigt, um kritische Systeme wieder in Betrieb zu nehmen. Hier finden in der Regel die Disaster-Recovery-Aktivitäten statt.

Je nach Erfolg der DR-Pläne und der Bemühungen des Teams wird die RTO hoffentlich innerhalb des geplanten Zeitrahmens erreicht. Kürzere RTOs bedeuten, dass die Systeme wahrscheinlich schneller zum normalen Betrieb zurückkehren und dass die aktuellsten Daten verfügbar sind. So kann das Unternehmen den normalen Betrieb wieder aufnehmen.

Werden die RTOs durch unvorhergesehene Faktoren überschritten, zum Beispiel durch längere kommerzielle Stromausfälle oder physische Schäden an Geräten, die einen Austausch erforderlich machen, kann es notwendig sein, Business-Continuity-Pläne zu starten. Bei diesen Strategien werden alternative Vorkehrungen getroffen, damit das Unternehmen den Betrieb so weit wie möglich wieder aufnehmen kann, bevor eine vollständige Wiederherstellung eintritt.

Punkt 3: Work Recovery Time. Sobald unternehmenskritische Systeme und Datenressourcen wiederhergestellt und wieder betriebsbereit sind, ist dies die Zeit, die benötigt wird, um zu den normalen Betriebsbedingungen zurückzukehren.

Die WRT umfasst:

  • Wiederherstellung der verlorenen Daten (auf der Grundlage des RPO)
  • Wiedereingabe von Daten aus Backlogs, wie solchen, die während des Ausfalls manuell erzeugt wurden
  • Rückkehr der Mitarbeiter in ihre Arbeitsbereiche
  • Reaktivierung von Systemen, Workstations, Laptops, Kommunikations- und anderen Hilfsmitteln
  • Wiederherstellung der Verknüpfungen zwischen den Betriebseinheiten, die den normalen Betrieb des Unternehmens ermöglichen
  • Die Punkte 2 und 3 (RTO + WRT) bilden zusammen die maximal zulässige Ausfallzeit. Dies ist die Zeit, die benötigt wird, um das Unternehmen wieder zum normalen Geschäftsbetrieb zurückzuführen.

Punkt 4: Zu diesem Zeitpunkt arbeitet das Unternehmen wieder wie gewohnt, und es ist an der Zeit, die Geschehnisse während des Ereignisses zu überprüfen. Die DR-Teams müssen notieren, was funktioniert hat, was nicht funktioniert hat, welche Änderungen vorgenommen werden müssen und welche nächsten Schritte erforderlich sind, um mit zukünftigen Störungen umzugehen.

Sobald die Systeme betriebsbereit sind, ist die RTO erreicht. Während der WRT müssen dann weitere Schritte unternommen werden, um das Geschäft wieder in Gang zu bringen; diese sind in der Regel in Geschäftskontinuitätsplänen enthalten.

Wie man mit Ausfallzeiten umgeht

Der Umgang mit Ausfallzeiten muss an der Spitze beginnen, wobei die oberste Führungsebene die Messlatte dafür vorgibt, wie eine Organisation auf störende Ereignisse reagiert. Investitionen in Resilienzmaßnahmen wie Business Continuity und Disaster Recovery helfen einem Unternehmen, sich nach einer Katastrophe schneller und effektiver zu erholen.

Einige Unternehmen haben keine komplexen Geschäftsabläufe und können ihre Tätigkeit schnell wieder aufnehmen, weil ihre Technologie weniger ausgefeilt ist und sich leichter wiederherstellen lässt. Im Gegensatz dazu müssen Unternehmen mit sehr komplexen Geschäftsprozessen und hochentwickelten, unternehmenskritischen Systemen in ihre Widerstandsfähigkeit (Resilienz) investieren, da sie sonst Geschäftseinbußen, Rufschädigung oder sogar den Verlust von Mitarbeitern riskieren.

Bewerten Sie alle möglichen Risiken

In Anbetracht der vielen verschiedenen möglichen Arten von Störfällen sollten Unternehmensleiter bei der Vorbereitung auf den Katastrophenfall einen „Alle-Risiken“-Ansatz verfolgen. Sie müssen potenzielle physische, technologische und personelle Katastrophen unter Risikogesichtspunkten sorgfältig prüfen, um deren Auswirkungen auf die Ausfallzeiten zu ermitteln. Selbst nach der Durchführung von Risiko-, Bedrohungs- und Schwachstellenanalysen sind Unternehmen möglicherweise immer noch nicht auf Ereignisse vorbereitet, die außerhalb der Grenzen ihrer Analysen auftreten.

Eine Überschreitung der maximal zulässigen Ausfallzeit bedeutet nicht, dass ein Unternehmen scheitern wird. Andere Faktoren, wie die Verfügbarkeit mehrerer Büros und Rechenzentren, können dazu beitragen, dass das Unternehmen einen Störfall mit Downtime überlebt. Unternehmen, die keine alternativen Arbeitsregelungen oder sogar keinen Zugang zur Fernarbeit haben, können einem größeren Ausfallrisiko ausgesetzt sein.

Die maximal zulässige Ausfallzeit ist eine wichtige Geschäftskennzahl, und obwohl es für verschiedene Aspekte eines Unternehmens mehrere Werte geben kann, ist die Kenntnis dieser Kennzahlen für die Entwicklung von Plänen zur Erreichung der betrieblichen Widerstandsfähigkeit von wesentlicher Bedeutung.

Erfahren Sie mehr über Backup-Lösungen und Tools

ComputerWeekly.de
Close