vladimircaribb - Fotolia

Feature

Backup-Grundlagen: Das Wichtigste zu RPO und RTO

Anhand von RTO und RPO kann ein Unternehmen feststellen, wie viele Daten es verlieren kann und wie lange es ausfallen kann - Schlüsselelemente eines Backup- und Recovery-Plans.

von

Paul Kirvan

Zuletzt aktualisiert: 19 Juni 2024

Zwei wichtige Metriken – Recovery Time Objectives (RTO) und Recovery Point Objective (RPO) – sind bei der Entwicklung von Plänen für Backup und Recovery sowie für die Datenspeicherung, die Geschäftskontinuität (Business Continuity), das Disaster Recovery und die betriebliche Ausfallsicherheit (Operational Resilienz) von wesentlicher Bedeutung.

Untersuchen Sie beide Messgrößen, wie sie zu berechnen sind und welche Auswirkungen sie auf Kosten und Risiken haben, und wie sie in eine Vielzahl von Resilienzplänen integriert werden können.

Was ist RTO?

Ein Wiederherstellungszeitziel (Recovery Time Objective, RTO) gibt die Zeitspanne zwischen dem Auftreten eines Störungsereignisses und dem Zeitpunkt an, zu dem die betroffene Ressource wieder voll einsatzfähig und bereit sein muss, die Ziele des Unternehmens zu unterstützen. In Abbildung 1 ist die RTO-Metrik dargestellt.

Abbildung 1: Die Recovery Time Objective kann in Sekunden, Minuten, Stunden oder Tagen gemessen werden.

Es besteht eine umgekehrte Beziehung zwischen der Wiederherstellungszeit und den Kosten, die zur Unterstützung der Wiederherstellung erforderlich sind. Je kürzer eine RTO in Bezug auf die Zeit ist, desto höher die Kosten für die Wiederherstellung, und umgekehrt. Daher müssen die Leiter der Geschäftseinheiten bei der Festlegung der RTO-Werte einbezogen werden.

Was ist RPO?

Das Wiederherstellungsziel (Recovery Point Objective, RPO) ist besonders wichtig, wenn es um Backup- und Recovery-Aktivitäten geht. Ein strenger Maßstab bedeutet, dass die Daten im Vergleich zur letzten Sicherung nicht zu sehr altern dürfen. Das Ergebnis ist, dass die Daten so aktuell wie möglich sind. In Abbildung 2 ist die RPO und ihr Verhältnis zum RTO dargestellt.

Abbildung 2: Die RPO wird zeitlich rückwärts vom Zeitpunkt des Auftretens des Fehlers ausgedrückt.

Aufgrund des umgekehrten Verhältnisses zwischen dem RPO-Wert und den Kosten zu seiner Erreichung bedeutet ein kurzer RPO von beispielsweise 10 bis 30 Sekunden, dass Unternehmen ihre Daten häufig sichern müssen. Um diesen RPO-Wert zu erreichen, benötigen Unternehmen unter Umständen Hochgeschwindigkeits-Backup-Technologien wie die Datenspiegelung oder die kontinuierliche Replikation. Für die Übertragung großer Datenmengen kann eine größere Netzwerkbandbreite erforderlich sein.

RPO vs. RTO: Gemeinsamkeiten und Unterschiede

RTOs und RPOs sind wichtige Backup- und Recovery-Kennzahlen, die sicherstellen, dass wichtige Daten und Systeme im Bedarfsfall verfügbar sind. Tabelle 1 enthält Beispiele dafür, wie sich das Verfehlen von RTOs und RPOs auf ein Unternehmen in einem Szenario nach einer Katastrophe auswirken könnte.

Tabelle 1.
Situation	Geplantes RPO	Reales RPO	Geplantes RTO	Reales RTO	Analyse
Geschäftskritische Anwendungen	0.5 Stunden	1.5 Stunden	0.5 Stunden	2.0 Stunden	Die Backup-Ressourcen der Anwendungen waren unzureichend; die Technologie konnte nicht schnell genug wiederhergestellt werden.
Kritische Datenbanken	0.25 Stunden	2.0 Stunden	0.25 Stunden	2.0 Stunden	Die Backup-Ressourcen der Anwendungen waren unzureichend; die Technologie konnte nicht schnell genug wiederhergestellt werden.
Essenzielle Netzwerk-Switches	nicht zutreffend	nicht zutreffend	0.5 Stunden	2.0 Stunden	Die Technologie konnte nicht schnell genug wiederhergestellt.
HVAC-Systeme und dazugehörende Anwendungen	0.25 Stunden	2.0 Stunden	0.25 Stunden	2.5 Stunden	Die Backup-Ressourcen für das HVAC-System waren unzureichend; das HVAC-System konnte nicht schnell genug wiederhergestellt werden.

Obwohl die RPO- und RTO-Werte in der Tabelle für jede Ressource hoch angesetzt waren, zeigen die Ergebnisse, dass die Ressourcen nicht so gut geschützt waren wie erwartet. Die für die Wiederherstellung benötigte Zeit deutet darauf hin, dass folgende Maßnahmen erforderlich sind:

Neukonfiguration von Speicherressourcen und Backup-Plattformen für Anwendungsprioritäten.
Neukonfiguration und/oder Neugestaltung der Netzinfrastrukturressourcen zur Verringerung der Latenzzeiten und zur Verbesserung der Wiederherstellungsgeschwindigkeit.
Ersatzteile, die im Rahmen des Wiederherstellungsprozesses verwendet werden können.
Stärkere Konzentration auf kritische Infrastrukturen, Umgebungssysteme und Bemühungen zur Aufrechterhaltung des Geschäftsbetriebs.

RPO- und RTO-Strategien

Beim Vergleich von RPO und RTO ist der Zeitplan unterschiedlich. RPOs werden zugewiesen, bevor ein Ereignis eintritt. RTOs werden nach Eintreten eines Ereignisses festgelegt. In der Praxis erfordert eine kurze RTO in der Regel eine ebenso kurze RPO, vor allem, wenn es um die Data Protection geht.

Wenn sich die Disaster-Recovery-Strategie nur auf die Sicherung und Wiederherstellung von Systemen bezieht, kann ein RTO-Wert ausreichen, um zu bestimmen, wie die Wiederherstellung erfolgen soll. Wenn das wiederherzustellende System jedoch auch kritische Daten verarbeitet (siehe Tabelle 1), sollten beide Metriken synchronisiert werden.

RTO und RPO für Cloud-Anwendungen und -Speicher

Mit der Migration des IT-Betriebs in Cloud-Umgebungen sind RTO- und RPO-Werte genauso wichtig, wenn nicht sogar noch wichtiger, da Cloud-Anbieter eine größere Kontrolle über die Ressourcen haben, die zum Erreichen der gewünschten RTO- und RPO-Werte erforderlich sind. In Szenarien wie der Cloud-basierten Datenspeicherung und -abfrage müssen die Nutzer dem Anbieter ihre gewünschten RTO- und RPO-Werte mitteilen und dann erfragen, was der Anbieter real offerieren kann.

Service-Level-Vereinbarungen (SLAs) müssen RTO- und RPO-Werte enthalten, wenn es sich um kritische Metriken handelt. Da Cloud-Anbieter ihre Ressourcen an die Kundenbedürfnisse anpassen können, sind RTOs und RPOs nicht schwer zu erreichen. Die Herausforderung besteht dann darin, die zusätzlichen Kosten zu minimieren, um neue oder überarbeitete RTO- und RPO-Werte zu erreichen.

Berechnung von RPO und RTO

Eine Analyse der Auswirkungen auf das Geschäft (Business Impact Analysis, BIA) identifiziert relevante RTO- und RPO-Werte. Auch Risikoanalysen können wertvolle Informationen liefern. BIAs identifizieren in der Regel geschäftskritische Prozesse und die Technologien, Mitarbeiter und Einrichtungen, die zur Gewährleistung des normalen Betriebs erforderlich sind. Neben der Ermittlung der finanziellen Auswirkungen einer Unterbrechung gehören auch RTO- und RPO-Werte zu den zahlreichen Ergebnissen dieser Analysen.

Während einer BIA müssen die Verantwortlichen der Geschäftseinheiten und die Geschäftsleitung den ihrer Meinung nach besten Szenarien für die Wiederherstellung nach einer Betriebsunterbrechung numerische Werte zuweisen.

RTO- und RPO-Werte sind streng numerische Zeitwerte. Eine RTO für einen kritischen Server könnte beispielsweise eine Stunde betragen, während die RPO für weniger kritische Datentransaktionsdateien 24 Stunden betragen könnte.

Während die numerischen RTO- und RPO-Werte sinken, steigen die Kosten für die Erreichung dieser Kennzahlen. Die einzige Möglichkeit, die tatsächlichen Kosten zu ermitteln, besteht darin, zunächst die gewünschten RTO- und RPO-Werte zu bestimmen und dann Nachforschungen anzustellen, um festzustellen, was erforderlich ist, um die Kennzahl im Falle einer Störung zu erreichen.

Potenzieller Widerstand seitens des Managements kann auftreten, wenn es keine zusätzlichen Mittel investieren möchte, um die vorgegebenen Metriken zu erreichen. Das Management muss verstehen, dass im Falle einer Störung zusätzliche Risiken und Verluste entstehen können.

Tipps zum Erreichen von RPOs und RTOs

Auf der Grundlage der Ergebnisse einer Risikoanalyse und einer BIA sollte die IT-Leitung eine gute Vorstellung von den Ereignissen haben, die den IT-Betrieb gefährden könnten.

Risikoanalysen liefern Ereignisdaten, die die Häufigkeit des Auftretens, die Wahrscheinlichkeit des Auftretens und die Auswirkungen auf die Organisation angeben. Die Analysen können auch Schwachstellen und potenzielle Bedrohungen aufzeigen.

Sobald die RTO- und RPO-Werte identifiziert und quantifiziert sind, können IT-Administratoren Infrastrukturressourcen ausfindig machen und Maßnahmen ermitteln, die dazu beitragen können, Bedrohungen zu verringern oder deren Schweregrad zu mindern, falls sie auftreten.

Integration von RTO und RPO in Backup- und Recovery-Pläne

Die Einbeziehung von RTO- und RPO-Kennzahlen in Datensicherungs-, Datenwiederherstellungs- und andere Resilienzpläne ist unerlässlich und stellt sicher, dass die Verfahren, das Personal und die technischen Ressourcen, die zur Erreichung der Kennzahlen eingesetzt werden, angemessen sind. Die Metriken zeigen an, wo die Messlatte für die Wiederherstellung gelegt wurde.

Bei der Datensicherung und -wiederherstellung sind RTO- und RPO-Werte für die Planung unerlässlich, da sie helfen, die optimale Datensicherungs- und Technologiekonfiguration zu bestimmen, um die Ziele zu erreichen. Sie sind auch unter dem Gesichtspunkt der Einhaltung von Vorschriften und der Rechnungsprüfung wichtig, da Prüfer beispielsweise nach Nachweisen für diese Werte als Schlüsselkontrollen für Backups und Recovery suchen könnten.