Heutzutage ist die Vermeidung von Ausfallzeiten aufgrund einer Betriebsunterbrechung das ideale Ziel aus Unternehmenssicht. Leider ist das nicht immer möglich oder realistisch. Zwischen wetterbedingten Ausfällen und der Zunahme von Cyberangriffen geht es den Verantwortlichen in den Unternehmen immer weniger darum, Ausfallzeiten (Downtime) zu vermeiden, sondern vielmehr darum, sie zu reduzieren.

Die maximal zulässige Ausfallzeit, die auch als maximal tolerierbare Ausfallzeit (Maximum Tolerable Downtime, MTD) bezeichnet wird, ist die absolut längste Ausfallzeit, die ein Unternehmen tolerieren kann, bevor es mit ernsthaften Auswirkungen konfrontiert wird. Dazu können Geschäftseinbußen oder Rufschädigung gehören.

Um sich auf potenzielle Krisen vorzubereiten, müssen Disaster-Recovery-Teams (DR-Teams) wissen, wie sie die maximal zulässige Ausfallzeit berechnen und wie sie Ausfallzeiten effektiv verwalten können.

Berechnung der maximal zulässigen Ausfallzeit

Die maximal zulässige Ausfallzeit gibt an, wie lange ein Unternehmen die Abwesenheit oder Nichtverfügbarkeit einer bestimmten Unternehmensfunktion maximal tolerieren kann. Verschiedene Geschäftsfunktionen werden wahrscheinlich unterschiedliche Antworten auf die Gleichung der zulässigen Ausfallzeit haben. Je kritischer die Funktion ist, desto kürzer ist die maximal zulässige Ausfallzeit.

Die Ausfallzeit einer Geschäftsfunktion basiert auf zwei Elementen: der System- oder Technologie-RTO (Recovery Time Objective) und der personengebundenen Arbeitswiederherstellungszeit (Work Recovery Time, WRT). Die Formel für die maximal zulässige Ausfallzeit lautet demnach wie folgt:

Maximal zulässige Ausfallzeit = RTO + WRT

Wenn beispielsweise für einen kritischen Geschäftsprozess eine maximal zulässige Ausfallzeit von drei Tagen gilt, könnte die RTO für Systeme, Netzwerke und Daten einen Tag betragen. Dies ist die Zeit, die das Unternehmen für die Wiederherstellung der Technologie benötigt. Die verbleibenden zwei Tage sind für die Wiederherstellung der Arbeit vorgesehen.

Das Diagramm (Abbildung 1) veranschaulicht die Beziehung zwischen den Metriken, die die maximal zulässige Ausfallzeit ausmachen.

Abbildung 1

In der Abbildung sichert das Unternehmen vor dem Eintreten eines Zwischenfalls die geschäftskritischen Daten und Systeme und führt die Geschäftsfunktionen wie gewohnt aus. Die folgenden vier Zeitpunkte sind der Schlüssel zur Analyse der MTD.

Punkt 1: Recovery Point Objective (RPO). Der maximal vertretbare Datenverlust auf der Grundlage von Sicherungsplänen, Datenanforderungen und Systemverfügbarkeit.

Sobald die Störung auftritt, leitet das Unternehmen Maßnahmen zur Behebung der Störung ein (Incident Response). Wenn die Störung nicht schnell unter Kontrolle gebracht werden kann, leiten die DR-Teams Daten- oder Disaster-Recovery-Aktivitäten ein, um den Betrieb so schnell wie möglich wieder zu normalisieren.

Punkt 2: Recovery Time Objective (RTO). Dies ist die Zeitspanne, die ein Unternehmen benötigt, um kritische Systeme wieder in Betrieb zu nehmen. Hier finden in der Regel die Disaster-Recovery-Aktivitäten statt.

Je nach Erfolg der DR-Pläne und der Bemühungen des Teams wird die RTO hoffentlich innerhalb des geplanten Zeitrahmens erreicht. Kürzere RTOs bedeuten, dass die Systeme wahrscheinlich schneller zum normalen Betrieb zurückkehren und dass die aktuellsten Daten verfügbar sind. So kann das Unternehmen den normalen Betrieb wieder aufnehmen.

Werden die RTOs durch unvorhergesehene Faktoren überschritten, zum Beispiel durch längere kommerzielle Stromausfälle oder physische Schäden an Geräten, die einen Austausch erforderlich machen, kann es notwendig sein, Business-Continuity-Pläne zu starten. Bei diesen Strategien werden alternative Vorkehrungen getroffen, damit das Unternehmen den Betrieb so weit wie möglich wieder aufnehmen kann, bevor eine vollständige Wiederherstellung eintritt.

Punkt 3: Work Recovery Time. Sobald unternehmenskritische Systeme und Datenressourcen wiederhergestellt und wieder betriebsbereit sind, ist dies die Zeit, die benötigt wird, um zu den normalen Betriebsbedingungen zurückzukehren.

Die WRT umfasst:

Wiederherstellung der verlorenen Daten (auf der Grundlage des RPO)

Wiedereingabe von Daten aus Backlogs, wie solchen, die während des Ausfalls manuell erzeugt wurden

Rückkehr der Mitarbeiter in ihre Arbeitsbereiche

Reaktivierung von Systemen, Workstations, Laptops, Kommunikations- und anderen Hilfsmitteln

Wiederherstellung der Verknüpfungen zwischen den Betriebseinheiten, die den normalen Betrieb des Unternehmens ermöglichen

Die Punkte 2 und 3 (RTO + WRT) bilden zusammen die maximal zulässige Ausfallzeit. Dies ist die Zeit, die benötigt wird, um das Unternehmen wieder zum normalen Geschäftsbetrieb zurückzuführen.

Punkt 4: Zu diesem Zeitpunkt arbeitet das Unternehmen wieder wie gewohnt, und es ist an der Zeit, die Geschehnisse während des Ereignisses zu überprüfen. Die DR-Teams müssen notieren, was funktioniert hat, was nicht funktioniert hat, welche Änderungen vorgenommen werden müssen und welche nächsten Schritte erforderlich sind, um mit zukünftigen Störungen umzugehen.

Sobald die Systeme betriebsbereit sind, ist die RTO erreicht. Während der WRT müssen dann weitere Schritte unternommen werden, um das Geschäft wieder in Gang zu bringen; diese sind in der Regel in Geschäftskontinuitätsplänen enthalten.