Definition

Disaster Recovery (DR)

Mitarbeiter: Erin Sullivan, Paul Crocetti, Ivy Wigmore

Disaster Recovery (DR) ist ein Bereich der Sicherheitsplanung, der darauf abzielt, eine Organisation vor den Auswirkungen schlechter Vorfälle zu schützen. Mit einer Disaster-Recovery-Strategie ist eine Organisation in der Lage, nach einer Unterbrechung geschäftskritische Funktionen aufrechtzuerhalten oder schnell wieder aufzunehmen.

Fortsetzung des Inhalts unten

Ein störendes Ereignis kann alles sein, was den Betrieb gefährdet, von einem Cyberangriff über Stromausfälle und Geräteausfälle bis hin zu Naturkatastrophen. Ziel von Disaster Recovery ist es, in solchen Fällen den Betrieb so nah wie möglich an der Normalität zu halten und Ausfälle so kurz und gering wie möglich. Die Disaster-Recovery-Strategie umfasst Planung und Tests und kann auch einen separaten physischen Backup-Standort für die Wiederherstellung des Betriebs beinhalten. Ein Kommunikationsplan für den Notfall ist ein weiterer Teil der Wiederherstellungsstrategie nach einer Katastrophe, der es einer Organisation ermöglicht, mit den Mitarbeitern und dem zuständigen Notfallpersonal Kontakt aufzunehmen und sie auf dem Laufenden zu halten.

Moderne Disaster Recovery bietet zahlreiche Optionen, darunter budgetfreundlichere Wege für kleinere Organisationen, die zögerlich sind, substanzielle Summen für hypothetische Notfälle zu investieren. Disaster Recovery mag teuer sein, im Notfall ohne dazustehen ist hingegen oft noch teurer und zudem rufschädigend.

Elemente eines Notfallwiederherstellungsplans

Pläne zur Disaster Recovery unterscheiden sich je nach Organisation und Branche, mit unterschiedlichen Anforderungen, Erwartungen und Vorschriften. Es gibt jedoch einen allgemeinen Rahmen, dem die Pläne folgen sollten.

Laut dem unabhängigen Berater Paul Kirvan gehören zu den unerlässlichen Komponenten für einen DR-Plan:

  • Eine Grundsatzerklärung zur Notfallwiederherstellung, eine Planübersicht und die Hauptziele des Plans.
  • Kontaktinformationen des Schlüsselpersonals und des DR-Teams.
  • Beschreibung der Katastrophenreaktionsmaßnahmen unmittelbar nach einem Vorfall.
  • Ein Diagramm des gesamten Netzwerks und des Wiederherstellungsstandorts.
  • Eine Wegbeschreibung, wie der Wiederherstellungsstandort erreicht werden kann.
  • Eine Liste der Software und Systeme, welche die Administratoren bei der Wiederherstellung verwenden sollen.
  • Mustervorlagen für eine Vielzahl von Technologiewiederherstellungen, einschließlich technischer Dokumentation von Anbietern.
  • Tipps für den Umgang mit den Medien.
  • Zusammenfassung der Versicherungsbedingungen.
  • Handlungsvorschläge für den Umgang mit finanziellen und rechtlichen Fragen.
  • Gebrauchsfertige Formulare zur Unterstützung beim Ausfüllen des Plans.

Laut Kirvan sollte das Entwicklungsteam bei der Erstellung des DR-Plans die folgenden Aktivitäten einbeziehen:

  • Treffen mit dem internen Technologieteam und der Netzwerkadministration, um den Plan grob abzuklären, und anschließende Unterrichtung des oberen Managements über das Treffen.
  • Sammeln aller relevanten Dokumente zur Netzwerkinfrastruktur.
  • Identifizieren der schwerwiegendsten Bedrohungen und Schwachstellen der Infrastruktur.
  • Überprüfen der bisherigen Geschichte von Ausfällen und Unterbrechungen und zurückliegender Krisenreaktionen.
  • Identifizieren kritischer IT-Assets und bestimmen maximaler akzeptabler Ausfallzeiten.
  • Festlegen des Katastrophen-Einsatzteams und der vorhandenen Fähigkeiten.
  • Überprüfen des Plans durch das Management
  • Testen und Überarbeiten des Plans.
  • Planen Sie die nächste Überprüfung/Audit der Disaster Recovery-Fähigkeiten.

Eine Organisation sollte ihren Disaster-Recovery-Plan als lebendes Dokument betrachten. Der Notfallplan muss regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass er genau ist und funktioniert. Der Plan sollte auch immer dann aktualisiert werden, wenn es Änderungen im Unternehmen gibt, die sich auf die Notfallwiederherstellung auswirken könnten.

Unterschied zwischen Disaster Recovery und Business Continuity

Business Continuity und Disaster Recovery (BC/DR) gehen oft Hand in Hand, aber trotz Überschneidungen sind sie nicht dasselbe. Sowohl Business Continuity als auch Disaster Recovery spielen in einer Datensicherungsstrategie eine Schlüsselrolle und haben ihre eigenen Anforderungen und Strategien.

Während sich die Disaster Recovery darauf konzentriert, dass eine Organisation nach einer Unterbrechung oder einem Ausfall wieder auf die Beine kommt, konzentriert sich die Business Continuity-Planung darauf, die Dinge am Laufen zu halten, während eine Katastrophe eintritt. Es gibt viele Gründe, wieso ein Unternehmen einen effektiven Business-Continuity-Plan braucht, von Compliance-Anforderungen – wenn das Unternehmen für Daten verantwortlich ist, die jederzeit verfügbar sein müssen – bis hin zum Schutz des Rufs des Unternehmens. Auch wenn etwas Unvermeidliches wie eine Naturkatastrophe zu Ausfällen führt, gilt: je weniger Ausfallzeiten, desto besser. Wenn ein Unternehmen das Pech hat, einem Cyberangriff ausgesetzt zu sein, hat es bereits mit einem Vertrauensverlust zu kämpfen, der mit längeren Ausfallszeiten nur noch schlimmer wird.

Sowohl Disaster Recovery als auch Business Continuity erfordern nicht nur einen Plan für technische, sondern auch für physische Probleme. Wenn in einem Rechenzentrum ein Störfall eintritt, sollten die BC/DR-Pläne potenzielle Remote-Arbeitsorte und Verfahren für die Mitarbeiter sowohl während eines Ereignisses als auch danach vorsehen, falls der primäre Standort Zeit für Reparaturen benötigt.

Alle Organisationen sollten sich mit der Notfallwiederherstellung befassen, aber auch ein Geschäftskontinuitätsplan sollte als hohe Priorität angesehen werden.

Die Bedeutung von Disaster Recovery: RPO und RTO

Da die Unternehmen immer mehr auf hohe Verfügbarkeit angewiesen sind, hat sich die Toleranz für Ausfallzeiten verringert.

Eine Katastrophe kann verheerende Auswirkungen auf ein Unternehmen haben. Studien haben gezeigt, dass viele Unternehmen nach einem erheblichen Datenverlust scheitern, aber DR kann helfen.

Das Recovery Point Objective (RPO) und das Recovery Time Objective (RTO) sind zwei wichtige Messgrößen für Disaster Recovery und Ausfallzeit.

RPO ist das maximale Alter der Dateien, die ein Unternehmen aus dem Backup-Speicher wiederherstellen können muss, damit der normale Betrieb nach einer Katastrophe wieder aufgenommen werden kann. Das Recovery Point Objective bestimmt, wie häufig mindestens Backups durchgeführt werden müssen. Wenn eine Organisation zum Beispiel ein RPO von vier Stunden hat, muss das System mindestens alle vier Stunden ein Backup erstellen.

RTO ist der maximale Zeitraum, den eine Organisation nach einer Katastrophe benötigt, um Dateien aus dem externen und lokalen Backup-Speicher wiederherzustellen und den normalen Betrieb wieder aufzunehmen. Mit anderen Worten: Das Recovery Time Objective beschreibt also die maximale Ausfallzeit, die eine Organisation bewältigen kann. Wenn ein Unternehmen eine RTO von zwei Stunden hat, darf die Dateiwiederherstellung nicht länger als diese Zeitspanne dauern.

RPO und RTO helfen Administratoren bei der Auswahl optimaler Strategien, Technologien und Verfahren für die Notfallwiederherstellung.

Kürzere RTO-Zeiten erfordern einen sekundären Speicher, damit die Administratoren schneller darauf zugreifen können. Recovery in Place ist eine Methode zur schnelleren Datenwiederherstellung. Bei dieser Technologie werden Backup-Daten auf der Backup-Appliance in einen Live-Zustand versetzt. Dadurch entfällt die Notwendigkeit, Daten über ein Netzwerk zu verschieben. Vor dem Einsatz von Recovery-in-place muss ein Unternehmen die Leistung der Festplatten für das Backup, also die Zeit, die sie benötigen, um Daten von einem Backup-Zustand in einen Live-Zustand zu versetzen, und das Failback. Da die On-Premises-Wiederherstellung bis zu 15 Minuten dauern kann, muss eine Organisation möglicherweise eine Replikation durchführen, wenn sie eine schnellere Wiederherstellungszeit wünscht.

Die Vorbereitung auf eine Katastrophe erfordert einen umfassenden Ansatz, der Hardware und Software, Netzwerkgeräte, Stromversorgung, Konnektivität und Tests umfasst, um sicherzustellen, dass DR innerhalb der RTO- und RPO-Ziele erreichbar ist. Obwohl das Implementieren eines gründlichen DR-Plans keine leichte Aufgabe ist, sind die potenziellen Vorteile beträchtlich.

Disaster-Recovery-Plan und -Strategie

Ein Disaster-Recovery-Plan bietet einen strukturierten Ansatz für die Reaktion auf ungeplante Vorfälle, welche die IT-Infrastruktur, also Hardware und Software, Netzwerke, Verfahren und Personen bedrohen.

Der Plan bietet schrittweise Disaster-Recovery-Strategien zur Wiederherstellung von Systemen und Netzwerken, um negative Auswirkungen auf den Betrieb zu minimieren. Eine Risikobewertung identifiziert potenzielle Bedrohungen für die IT-Infrastruktur; der DR-Plan legt dar, wie die für die Organisation wichtigsten Elemente wiederhergestellt werden können.

Tests zur Notfallwiederherstellung

Tests sind für das Änderungsmanagement bei der DR-Planung von entscheidender Bedeutung, da sie dazu beitragen, Lücken zu identifizieren und die Möglichkeit bieten, Maßnahmen im Krisenfall zu proben. Ein DR-Plan hat viele bewegliche Teile, so dass das Testen des Plans der Organisation helfen kann, genau zu verstehen, was die Mitarbeiter während Disaster Recovery-Szenarien tun sollten.

Eine Organisation sollte einen Zeitplan für das Testen ihrer Disaster-Recovery-Richtlinie haben und darauf achten. Zu häufige DR-Tests können das Personal strapazieren, aber Organisationen mit weniger frequente Tests verzögern den ganzen Prozess. Darüber hinaus sollte eine Organisation ihren DR-Plan nach jeglichen Systemänderungen testen.

Eine Variante für Tests ist es, für einen bestimmten Zeitraum im Katastrophenmodus zu laufen, also beispielsweise zum Wiederherstellungsstandort zu wechseln, die Systeme dort eine Woche lang laufen zu lassen und dann wieder zum normalen Betrieb zurückzugehen.

Zu den Möglichkeiten, das Beste aus Disaster-Recovery-Tests herauszuholen, gehören

  • Das Management informiert halten und die Finanzierung der Tests sicherstellen
  • Genaue Informationsmaterialen zur Verfügung stellen
  • Einen Testtermin finden, an dem das gesamte Team verfügbar ist
  • Vorheriges Prüfen der Testskripte
  • Testumgebung vorbereiten und prüfen
  • Trockenlauf des Tests planen
  • Bereithalten für das Stoppen des Tests, wenn nötig
  • Einen Protokollanten Notizen anfertigen lassen
  • Vervollständigen des Berichts über Erfolge und aufgetretene Fehler
  • Aktualisieren des DR-Plans anhand des Protokolls und der Berichte

Obwohl es optimal ist, einen umfassenden Notfallwiederherstellungs-Test durchzuführen, ist dies aufgrund fehlender Mittel, Zeit oder Ressourcen nicht immer möglich. In diesem Fall sollte das Unternehmen dennoch die wichtigsten Teilnehmer zusammenbringen, alle relevanten Dokumente verteilen und den Test durchsprechen. Dieser eingeschränkte DR-Testansatz birgt Risiken, da Technologie, die nicht gründlich getestet wurde, bei Bedarf möglicherweise nicht richtig funktioniert.

Cloud Disaster Recovery/Disaster Recovery als Dienst

Disaster Recovery as a Service (DRaaS) ist eine Cloud-basierte DR-Methode, die in den letzten Jahren an Popularität gewonnen hat.

Zu den Vorteilen von DRaaS zählen niedrigere Kosten, einfachere Bereitstellung und die Möglichkeit, Pläne regelmäßig zu testen. Cloud-Storage-Services sind oft günstiger, da sie auf einer gemeinsam genutzten Infrastruktur laufen. Sie sind flexibler, da Unternehmen sich für genau die Services anmelden können, die sie benötigen. DR-Tests können durch einfaches Hochfahren temporärer Instanzen abgeschlossen werden.

Allerdings kann es sein, dass nach einer Katastrophe größeren Ausmaßes keine Cloud-basierte Disaster Recovery zur Verfügung steht, da am DR-Standort möglicherweise nicht genügend Platz vorhanden ist, um jede Anwendung auszuführen. Cloud-DR erhöht auch den Bandbreitenbedarf und könnte bei komplexeren Systemen die Netzwerkleistung beeinträchtigen. Die Kosten variieren sehr stark zwischen den Anbietern – einige Gebühren basieren auf dem Bandbreiten- oder Speicherbedarf des Netzwerks – und können sich schnell summieren.

Bevor ein Unternehmen einen Anbieter auswählt, sollte es eine interne Bewertung durchführen, um seine Anforderungen an Disaster-Recovery zu ermitteln. Zu den Fragen, die einem potenziellen DRaaS-Anbieter gestellt werden sollten, gehören

  • Wird DRaaS auf der Grundlage der vorhandenen Infrastruktur funktionieren? Wie wird sich das Produkt in bestehende Backup- und DR-Plattformen integrieren lassen?
  • Welcher Prozentsatz der Kunden kann während einer regionalen Katastrophe gleichzeitig unterstützt werden?
  • Was passiert, wenn der Anbieter keinen Disaster Recovery-Service anbieten kann?
  • Wie werden die Benutzer auf interne Anwendungen zugreifen?
  • Wie lange kann ein Kunde nach einer Katastrophe im Rechenzentrum des Anbieters arbeiten? Wie sehen die Failback-Verfahren aus?
  • Wie viel Hilfe kann vom Anbieter während einer Katastrophe erwartet werden?
  • Wie sieht das Testverfahren aus?
  • Wie gestaltet sich die Skalierung?
  • Wie genau berechnet der Anbieter seinen Disaster Recovery-Service?

In den meisten Cloud-Wiederherstellungssituationen sollte eine Organisation damit rechnen, dass ausfallende Workloads an den ursprünglichen Standort zurückkehren, sobald die Krise gelöst ist. Einige DRaaS-Anbieter unterstützen jedoch kein automatisiertes Failback.

Disaster-Recovery-Standorte: Heiß, warm und kalt

Von einem DR-Standort aus stellt ein Unternehmen seine technologische Infrastruktur und den Betrieb wieder her, wenn das primäre Rechenzentrum nicht verfügbar ist. DR-Standorte können intern oder extern sein.

Unternehmen, die große Ansprüche an die Verfügbarkeit und das Volumen von Informationen sowie strenge RTOs haben, verwenden mit größerer Wahrscheinlichkeit einen internen DR-Standort, bei dem es sich in der Regel um ein zweites Rechenzentrum handelt. Zu den Überlegungen beim Aufbau eines internen Standorts gehören die Hardware-Konfiguration, unterstützende Ausrüstung, Stromwartung, Heizung und Kühlung des Standorts, Layout und Personal. Wie bei jedem primären Rechenzentrum ist auch hier eine genaue Risikoprüfung des Standortes notwendig.

Ein interner Standort ist oft viel teurer als die eines externer Standort, bietet aber eine bessere Kontrolle über alle Aspekte des Disaster Recovery-Prozesses.

Ein externer Anbieter besitzt und betreibt einen externen Disaster-Recovery-Standort. Externe Standorte können heiß, warm oder kalt sein.

  • Heißer Standort: Ein voll funktionsfähiges Rechenzentrum mit Hard- und Software, Personal und Kundendaten, das in der Regel rund um die Uhr besetzt ist und im Katastrophenfall einsatzbereit ist.
  • Warmer Standort: Ein ausgestattetes Rechenzentrum ohne Kundendaten; eine Organisation kann nach einer Katastrophe zusätzliche Ausrüstung installieren und Kundendaten einspielen.
  • Kalter Standort: Verfügt über eine Infrastruktur zur Unterstützung von IT-Systemen und Daten, aber keine Technologie, bis eine Organisation DR-Pläne aktiviert und Geräte installiert; kann zur Ergänzung eines Systems mit heißen oder warmen Standorten dienen.

Die Entfernung zum primären Rechenzentrum ist eine wichtige Überlegung für den Disaster Recovery-Standort. Ein näher gelegener Standort ist einfacher zu verwalten, aber er sollte so weit entfernt sein, dass er nicht von einer größeren Katastrophe betroffen ist, die das primäre Rechenzentrum in Mitleidenschaft zieht. Weiter entfernte Standorte können jedoch mehr Arbeitsaufwand bedeuten und die Kosten in die Höhe treiben.

Ein Cloud-Wiederherstellungsstandort ist eine weitere Option. Cloud-Storage ist oft billiger und erfordert weniger Ressourcen und Infrastruktur, aber die Administratoren müssen auf Bandbreite und Sicherheit bedacht sein.

Organisation sollten die Standortnähe, interne und externe Ressourcen, Betriebsrisiken, Service Level Agreements und Kosten berücksichtigen, wenn sie Verträge mit Disaster-Recovery-Dienstleistern abschließen.

Ebenen der DR

In den 1980er Jahren legte der Technische Lenkungsausschuss von Share in Zusammenarbeit mit IBM eine Beschreibung der Service-Level für die Wiederherstellung nach einem Ausfall unter Verwendung der Stufen 0 bis 6 vor. Stufe 0 stellt die geringste und Stufe 6 die höchste Wiederherstellbarkeit außerhalb des Standorts dar.

  • Stufe 0: Keine Off-Site-Daten. Die Wiederherstellung ist nur mit Systemen vor Ort möglich.
  • Stufe 1: Physisches Backup mit einem kalten Standort. Daten, wahrscheinlich auf Band, werden zu einer Off-Site-Einrichtung transportiert, in der nicht die erforderliche Hardware installiert ist.
  • Stufe 2: Physische Sicherung mit einem Hot Site. Die Daten, wahrscheinlich auf Band, werden zu einer externen Einrichtung transportiert, die über die erforderliche Hardware verfügt, um die Schlüsselsysteme des Primärstandorts zu unterstützen.
  • Stufe 3: Elektronische Datenspeicherung. Die Daten werden elektronisch an einen Hot-Site übertragen.
  • Stufe 4: Point-in-Time-Kopien/aktiver Sekundärstandort. Wichtige Daten werden zwischen dem primären und dem sekundären Standort kopiert, wobei jeder Standort den anderen sichert. In dieser Stufe werden häufig Festplatten
  • Stufe 5: Two-Site-Commit/Transaktionsintegrität. Daten werden kontinuierlich zwischen den Standorten übertragen.
  • Stufe (Tier) 6: Minimaler bis null Datenverlust. Die Wiederherstellung erfolgt augenblicklich, oft mit Disk Mirroring oder Replikation.

Später wurde ein Tier 7 hinzugefügt, um den Fortschritt der Automatisierung für Disaster Recovery abzudecken. Es stellt den höchsten Grad an Verfügbarkeit in Disaster-Recovery-Szenarien dar.

Im Allgemeinen verbessert sich zwar die Fähigkeit zur Wiederherstellung mit dem nächsthöheren Tier, aber die Kosten steigen auch.

Arten von Katastrophen

Es gibt eine Vielzahl von Katastrophen – sowohl von Menschen als auch von der Natur verursacht – die ein DR nach sich ziehen. Einige davon mögen wahrscheinlicher sein, als andere, aber es ist wichtig, alle Möglichkeiten zu Prüfen und in Betracht zu ziehen.

 

Beispiele für Arten von Katastrophen sind:

  • Komplettausfall einer Anwendung oder virtuellen Maschine (VM)
  • Kommunikationsausfall
  • Ausfall eines Chassis, der zum Ausfall eines einzelnen Hosts oder mehrerer Hosts führen kann
  • Rack-Ausfall
  • Rechenzentrums-Totalausfall, der von der versehentlichen Auslösung einer Sprinkleranlage über einen Stromausfall bis hin zu einer Überschwemmung oder einem Brand reichen kann.
  • Gebäude-Katastrophe.
  • Gelände-Katastrophe; zum Beispiel ein Tornado, der einen Bereich zerstört.
  • Stadtweite Katastrophe.
  • Regionale Katastrophe. Beispiele sind die Elbehochwässer oder Orkan Kyrill.
  • Nationale Katastrophe. Dies ist wahrscheinlicher in sehr kleinen Ländern, aber auch für größere Staaten möglich

Die Erkenntnis, dass diese Katastrophen existieren, ist der erste Schritt bei der Planung für den Ernstfall. Es gibt zwei Berichte, die helfen können, eine Organisation auf potenzielle Katastrophen vorzubereiten: eine Risikobewertung und eine Analyse der geschäftlichen Auswirkungen (Business Impact Analysis, BIA).

Eine Risikobewertung wird durchgeführt, um Gefahren zu ermitteln, die sich negativ auf ein Unternehmen auswirken könnten, und um Wege zur Schadensminderung aufzuzeigen. Risiken variieren je nach Faktoren wie der Branche, in der sich die Organisation befindet, und ihrer geografischen Lage, daher ist es entscheidend, dass der Planungsprozess für die Disaster Recovery auch eine Risikobewertung umfasst. Im Allgemeinen sollte eine Risikobewertung durchgeführt werden, indem potenzielle Gefahren identifiziert werden, bestimmt wird, wer oder was durch diese Gefahren geschädigt werden könnte, und die Ergebnisse zur Aktualisierung der Verfahren verwendet werden, um diese Risiken zu berücksichtigen.

Eine BIA ermittelt und bewertet die Auswirkungen einer Katastrophe auf den Geschäftsbetrieb. Das kann dazu beitragen, sowohl die finanziellen als auch die nichtfinanziellen Kosten einer Katastrophe vorherzusagen. Eine BIA befasst sich mit den Auswirkungen verschiedener Katastrophen auf die Sicherheit, die Finanzen, das Marketing, den geschäftlichen Ruf, die Einhaltung von Rechtsvorschriften und die Qualitätssicherung einer Organisation. Eine BIA, die vor einer Risikobewertung durchgeführt wird, identifiziert die kritischen Bereiche eines Unternehmens und kann bei der Bildung von RPOs und RTOs im DR-Plan helfen.

Anbieter von Disaster Recovery

Anbieter von Disaster Recovery können viele Formen annehmen, denn DR ist mehr als nur ein IT-Problem. DR-Anbieter setzen sich nicht nur aus Anbietern von Wiederherstellungssoftware und DRaaS-Anbietern zusammen, sondern auch aus Organisationen, die sich mit der Reaktion auf Vorfälle und der Notfallplanung befassen.

Auch wenn manche Unternehmen nicht bereit sind, in die Katastrophenvorsorge zu investieren, ändert sich diese Einstellung zunehmend. Dank eines wachsenden Marktes für Disaster Recovery und Notfallreaktion sollten Unternehmen jeder Größe in der Lage sein, Disaster Recovery in ihr Budget zu integrieren.

Diese Definition wurde zuletzt im Juli 2020 aktualisiert

Erfahren Sie mehr über IT-Sicherheits-Management

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

ComputerWeekly.de

Close