Definition

Disaster Recovery (DR)

Disaster Recovery (DR) ist die Fähigkeit einer Organisation, auf ein Ereignis zu reagieren und sich davon zu erholen, das den Geschäftsbetrieb negativ beeinflusst. Ziel der DR-Methoden ist es, dass das Unternehmen nach einer Katastrophe die kritischen Systeme und die IT-Infrastruktur so schnell wie möglich wieder nutzen kann. Um sich darauf vorzubereiten, führen Firmen oft eine gründliche Analyse ihrer Systeme durch und erstellen ein formelles Dokument, das in Krisenzeiten befolgt werden kann. Dieses Dokument wird als Disaster-Recovery-Plan bezeichnet.

Was ist eine Katastrophe?

In der Praxis eines DR geht es um schwerwiegende Ereignisse. Bei diesen Ereignissen denkt man oft an Naturkatastrophen, aber sie können auch durch System- oder technisches Versagen oder durch vorsätzliche Angriffe von Menschen verursacht werden. Sie sind so schwerwiegend, dass sie kritische Geschäftsabläufe für eine gewisse Zeit unterbrechen oder ganz zum Erliegen bringen. Zu den Arten von Katastrophen gehören:

  • Cyberangriffe wie Malware, DDoS- und Ransomware-Angriffe
  • Sabotage
  • Stromausfälle
  • Ausfall von Geräten
  • Epidemien oder Pandemien
  • Terroristische Angriffe oder Bedrohungen
  • Industrieunfälle
  • Wirbelstürme
  • Wirbelstürme
  • Erdbeben
  • Überschwemmungen
  • Brände

Warum ein Disaster Recovery nach Katastrophen wichtig?

Katastrophen können viele Arten von Schäden verursachen, die je nach Szenario unterschiedlich schwerwiegend sind. Ein kurzer Netzwerkausfall kann zu frustrierten Kunden und einem gewissen Geschäftsverlust bei einem E-Commerce-System führen. Ein Wirbelsturm oder Tornado könnte eine ganze Produktionsstätte, ein Rechenzentrum oder ein Büro zerstören.

Die finanziellen Kosten können erheblich sein. Der Bericht „Annual Outage Analysis 2021“ des Uptime Institute schätzt, dass 40 Prozent der Ausfälle oder Serviceunterbrechungen in Unternehmen zwischen 100.000 und 1 Million US-Dollar kosten, während etwa 17 Prozent mehr als 1 Million US-Dollar kosten. Eine Datenpanne kann noch teurer sein; die durchschnittlichen Kosten betrugen 2020 laut dem 2020 Cost of a Data Breach Report von IBM und dem Ponemon Institute 3,86 Millionen Dollar.

Darüber hinaus sind viele Unternehmen verpflichtet, Pläne für Disaster Recovery, Geschäftskontinuität und Data Protection zu erstellen und zu befolgen, um Compliance-Vorschriften zu erfüllen. Dies ist besonders wichtig für Organisationen, die in den Bereichen Finanzen, Gesundheitswesen, Fertigung und Behörden tätig sind. Das Versäumnis, DR-Verfahren einzuführen, kann rechtliche oder behördliche Strafen nach sich ziehen, so dass es wichtig ist, zu verstehen, wie man die Ausfallsicherheitsstandards einhält.

Es mag extrem erscheinen, sich auf jede potenzielle Katastrophe vorzubereiten, aber die COVID-19-Krise hat gezeigt, dass selbst Szenarien, die weit hergeholt scheinen, eintreten können. Unternehmen, die über Notfallmaßnahmen zur Unterstützung der Telearbeit verfügten, waren klar im Vorteil, als die Anweisung, zu Hause zu bleiben, in Kraft trat.

Es hat viele Vorteile, wenn man sich bereits im Vorfeld Gedanken über Katastrophen macht und einen Plan erstellt, wie man darauf reagieren kann. Es schärft das Bewusstsein für potenzielle Störungen und hilft einer Organisation, Prioritäten für ihre geschäftskritischen Funktionen zu setzen. Außerdem bietet es ein Forum, in dem diese Themen diskutiert werden können und sorgfältige Entscheidungen darüber getroffen werden können, wie man am besten in einem Umfeld mit wenig Druck reagiert.

Was ist der Unterschied zwischen Disaster Recovery und Business Continuity?

In der Praxis werden Disaster Recovery und Business Continuity (BC) oft zu einer einzigen Unternehmensinitiative zusammengefasst und sogar als BC/DR abgekürzt, aber sie sind nicht dasselbe. Obwohl die beiden Disziplinen ähnliche Ziele in Bezug auf die Widerstandsfähigkeit eines Unternehmens verfolgen, unterscheiden sie sich stark in ihrem Umfang.

BC ist eine proaktive Disziplin, die darauf abzielt, Risiken zu minimieren und sicherzustellen, dass das Unternehmen seine Produkte und Dienstleistungen unabhängig von den Umständen weiterhin bereitstellen kann. Dabei geht es vor allem darum, wie die Mitarbeiter ihre Arbeit fortsetzen können und wie das Unternehmen den Betrieb im Katastrophenfall aufrechterhalten kann. BC steht auch in engem Zusammenhang mit Business Resilience, Krisenmanagement und Risikomanagement, hat aber jeweils andere Ziele und Parameter.

DR ist ein Teilbereich von Business Continuity, der sich auf die IT-Systeme konzentriert, die die Geschäftsfunktionen ermöglichen. Sie befasst sich mit den spezifischen Schritten, die ein Unternehmen verfolgen muss, um den Technologiebetrieb nach einem Ereignis wieder aufzunehmen. Auch DR ist von Natur aus ein reaktiver Prozess. Während die Planung dafür im Voraus erfolgen muss, werden die DR-Aktivitäten erst dann in Gang gesetzt, wenn eine Katastrophe tatsächlich eintritt.

Elemente einer Disaster-Recovery-Strategie

Bevor eine Organisation ihre DR-Strategien festlegen kann, muss sie zunächst die vorhandenen Ressourcen und Prioritäten analysieren. In der Regel fließen zwei verschiedene Analysen in die Entscheidungsfindung für ein DR ein:

Risikoanalyse

Die Risikoanalyse oder Risikobewertung ist eine Bewertung aller potenziellen Risiken, denen ein Unternehmen ausgesetzt sein könnte, sowie deren Folgen. Die Risiken können je nach Branche und geografischer Lage des Unternehmens sehr unterschiedlich sein. Bei der Bewertung sollten potenzielle Gefahren ermittelt werden, um festzustellen, wem oder was diese Gefahren schaden könnten, und um anhand der Ergebnisse Verfahren zu entwickeln, die diesen Risiken Rechnung tragen.

Business Impact Analysis

Die Auswirkungsanalyse (Business Impact Analysis, BIA) bewertet die Auswirkungen der oben genannten Risiken auf den Geschäftsbetrieb. Eine BIA kann helfen, finanzielle und nicht-finanzielle Kosten vorherzusagen und zu quantifizieren. Sie untersucht auch die Auswirkungen verschiedener Katastrophen auf die Sicherheit, die Finanzen, das Marketing, den Ruf des Unternehmens, die Einhaltung von Rechtsvorschriften und die Qualitätssicherung.

Das Verständnis des Unterschieds zwischen Risikoanalyse und BIA und die Durchführung der Bewertungen können einem Unternehmen auch dabei helfen, seine Ziele in Bezug auf Data Protection und die Notwendigkeit von Backups zu definieren. Unternehmen quantifizieren diese in der Regel mit Hilfe von Messwerten, die als Recovery Point Objective (RPO) und Recovery Time Objective (RTO) bezeichnet werden.

Beginnen Sie mit Ihrer eigenen Analyse, indem Sie unseren Leitfaden zur BIA und unsere kostenlose Vorlage lesen .

Recovery Point Objective (RPO)

RPO ist das maximale Alter der Dateien, die ein Unternehmen aus dem Backup-Speicher wiederherstellen muss, damit der normale Betrieb nach einer Katastrophe wieder aufgenommen werden kann. Der RPO bestimmt die Mindesthäufigkeit der Backups. Wenn eine Organisation beispielsweise ein RPO von vier Stunden hat, muss das System mindestens alle vier Stunden gesichert werden.

RecoveryTime Objective (RTO)

Die Wiederherstellungszeit (RTO) gibt an, wie lange die Systeme eines Unternehmens ausfallen können, ohne dass ein erheblicher oder irreparabler Schaden für das Unternehmen entsteht. In manchen Fällen können Anwendungen mehrere Tage lang ausfallen, ohne dass dies schwerwiegende Folgen hat. In anderen Fällen können Sekunden dem Unternehmen erheblichen Schaden zufügen.

RPO und RTO sind beide wichtige Elemente bei der Notfallwiederherstellung, aber die Messgrößen haben unterschiedliche Verwendungszwecke. RPOs werden vor dem Eintreten einer Störung angewendet, um sicherzustellen, dass die Daten gesichert werden, während RTOs nach dem Eintreten eines Ereignisses zum Tragen kommen.

Lesen Sie mehr über die Berechnung von Wiederherstellungszielen und den Unterschied zwischen RPO und RTO.

Was umfasst ein Disaster Recovery?

Sobald eine Organisation ihre Risikofaktoren, Wiederherstellungsziele und technologische Umgebung gründlich überprüft hat, kann sie einen Disaster-Recovery-Plan erstellen. Der DR-Plan ist das formale Dokument, das diese Elemente spezifiziert und beschreibt, wie das Unternehmen im Falle einer Störung oder einer Katastrophe reagieren wird. Der Plan beschreibt die Wiederherstellungsziele, einschließlich RTO und RPO, sowie die Schritte, die die Firma unternehmen wird, um die Auswirkungen der Katastrophe zu minimieren.

Die Komponenten eines Notfallplans sollten Folgendes umfassen:

  • Eine Erklärung zu den DR-Richtlinien, eine Übersicht über den Plan und die Hauptziele des Plans.
  • Kontaktinformationen für das Schlüsselpersonal und das DR-Team.
  • Eine Schritt-für-Schritt-Beschreibung der Katastrophenschutzmaßnahmen unmittelbar nach einem Vorfall.
  • Ein Diagramm des gesamten Netzwerks und des Wiederherstellungsstandorts.
  • Eine Anfahrtsbeschreibung zum Wiederherstellungsstandort.
  • Eine Liste der Software und Systeme, die die Mitarbeiter bei der Wiederherstellung verwenden werden.
  • Mustervorlagen für eine Reihe von technologischen Wiederherstellungen, einschließlich technischer Dokumentation von Anbietern.
  • Eine Mitteilung, die interne und externe Kontakte sowie eine Vorlage für den Umgang mit den Medien enthält.
  • Zusammenfassung des Versicherungsschutzes.
  • Vorgeschlagene Maßnahmen für den Umgang mit finanziellen und rechtlichen Problemen.

Eine Organisation sollte ihren DR-Plan als ein flexibles, sich änderndes Dokument betrachten. Es sollten regelmäßige Disaster-Recovery-Tests geplant werden, um sicherzustellen, dass der Plan korrekt ist und im Falle einer Wiederherstellung funktioniert. Der Plan sollte auch anhand einheitlicher Kriterien bewertet werden, wenn es Änderungen im Unternehmen oder in den IT-Systemen gibt, die sich auf die Wiederherstellung auswirken könnten.

Weitere Details und Anleitungen finden Sie in der kostenlosen Vorlage für einen Notfallplan und im Planungsleitfaden.

So funktioniert Disaster Recovery

DR-Initiativen sind heute für Unternehmen aller Größenordnungen leichter zu realisieren, da die Cloud weit verbreitet ist und Virtualisierungstechnologien zur Verfügung stehen, die die Sicherung und Replikation erleichtern. Ein Großteil der Terminologie und der bewährten Verfahren, die für Disaster Recovery entwickelt wurden, basierte jedoch auf den Bemühungen von Unternehmen, große physische Rechenzentren wiederherzustellen. Dies umfasste Pläne zur Übertragung oder zum Failover von Arbeitslasten von einem primären Rechenzentrum zu einem sekundären Standort oder DR-Standort, um Daten und Abläufe wiederherzustellen.

Standorte für das Disaster Recovery

Ein Unternehmen nutzt einen DR-Standort, um seine Daten, seine technologische Infrastruktur und seinen Betrieb wiederherzustellen, wenn sein primäres Rechenzentrum nicht verfügbar ist. DR-Standorte können intern, extern oder Cloud-basiert sein.

Ein Unternehmen richtet einen internen DR-Standort ein und unterhält diesen. Organisationen mit hohem Informationsbedarf und aggressiven RTOs verwenden eher einen internen DR-Standort, bei dem es sich in der Regel um ein zweites Rechenzentrum handelt. Beim Aufbau eines internen Standorts muss das Unternehmen die Hardwarekonfiguration, die unterstützende Ausrüstung, die Wartung der Stromversorgung, die Heizung und Kühlung des Standorts, das Layout, den Standort und das Personal berücksichtigen.

Ein externer Standort für das Disaster Recovery gehört einem Drittanbieter und wird von diesem betrieben. Externe Standorte können heiß, warm oder kalt sein.

  • Heißer Standort (Hot Site): Ein voll funktionsfähiges Rechenzentrum mit Hardware und Software, Personal und Kundendaten, das in der Regel rund um die Uhr besetzt und im Katastrophenfall einsatzbereit ist.
  • Warmer Standort (Warm Site): Ein ausgestattetes Rechenzentrum ohne Kundendaten; ein Unternehmen kann nach einer Katastrophe zusätzliche Geräte installieren und Kundendaten einbringen.
  • Kalter Standort (Cold Site): Verfügt über eine Infrastruktur zur Unterstützung von IT-Systemen und Daten, aber keine Technologie, bis ein Unternehmen DR-Pläne aktiviert und Geräte installiert hat.

Ein Cloud-Recovery-Standort ist eine weitere Option. Eine Organisation sollte die Nähe des Standorts, interne und externe Ressourcen, betriebliche Risiken, Service-Level-Vereinbarungen (SLAs) und Kosten berücksichtigen, wenn sie mit Cloud-Anbietern einen Vertrag über das Hosting ihrer DR-Ressourcen oder das Outsourcing zusätzlicher Dienste abschließt.

Disaster-Recovery-Ebenen (DR Tiers)

Neben der Auswahl des am besten geeigneten Disaster-Recovery-Standorts kann es für Unternehmen hilfreich sein, die vom Share Technical Steering Committee und IBM in den 1980er Jahren festgelegten Disaster-Recovery-Ebenen, so genannte Tiers, einzusetzen. Die Tiers bieten eine Vielzahl von Wiederherstellungsoptionen, die Unternehmen als Blaupause verwenden können, um den besten DR-Ansatz je nach ihren Geschäftsanforderungen zu bestimmen.

Eine andere Art von DR-Tiering enthält die Zuweisung von Wichtigkeitsstufen für verschiedene Arten von Daten und Anwendungen und die unterschiedliche Behandlung jeder Stufe auf der Grundlage der Toleranz für Datenverlust. Bei diesem Ansatz wird berücksichtigt, dass einige unternehmenskritische Funktionen keinen Datenverlust oder Ausfallzeiten verkraften können, während andere länger offline sein können oder kleinere Datenmengen wiederhergestellt werden können.

Arten des Disaster Recovery

Neben der Auswahl eines Disaster-Recovery-Standorts und der Erwägung von Disaster-Recovery-Stufen müssen IT- und Unternehmensleiter auch die beste Methode zur Umsetzung ihres Disaster-Recovery-Plans ermitteln. Dies hängt von der IT-Umgebung und der Technologie ab, die das Unternehmen zur Unterstützung seiner DR-Strategie wählt.

Je nach IT-Infrastruktur und den zu schützenden Ressourcen sowie der Backup- und Wiederherstellungsmethode, für die sich das Unternehmen entscheidet, gibt es unterschiedliche Arten von DR. Je nach Größe und Umfang des Unternehmens kann es separate DR-Pläne und Implementierungsteams für bestimmte Abteilungen wie Rechenzentren oder Netzwerke geben. Zu den wichtigsten Arten von DR gehören:

Wiederherstellung von Datenzentren

Firmen, die ihre eigenen Rechenzentren betreiben, benötigen eine DR-Strategie, die sowohl die gesamte IT-Infrastruktur innerhalb des Rechenzentrums als auch die physische Einrichtung berücksichtigt. Die Sicherung auf einen Failover-Standort in einem sekundären Rechenzentrum oder einer Colocation-Einrichtung ist oft ein wichtiger Teil des Plans. IT- und Unternehmensleiter sollten auch alternative Vorkehrungen für eine breite Palette von einrichtungsbezogenen Komponenten wie Stromversorgungssysteme, Heizung und Kühlung, Brandschutz und physische Sicherheit dokumentieren und treffen.

Disaster Recovery des Netzwerks

Die Netzwerkkonnektivität ist für die interne und externe Kommunikation, die gemeinsame Nutzung von Daten und den Anwendungszugriff im Katastrophenfall unerlässlich. Eine Netzwerk-DR-Strategie muss einen Plan für die Wiederherstellung von Netzwerkdiensten enthalten, insbesondere im Hinblick auf den Zugang zu Backup-Standorten und Daten.

Virtualisiertes Disaster Recovery

Virtualisierung ermöglicht DR, indem sie es Unternehmen ermöglicht, Arbeitslasten an einem alternativen Standort oder in die Cloud zu replizieren. Zu den Vorteilen eines virtuellen DR gehören Flexibilität, einfache Implementierung, Effizienz und Geschwindigkeit. Virtualisierte Workloads haben einen kleinen IT-Fußabdruck, die Replikation kann häufig durchgeführt werden, und ein Failover kann schnell eingeleitet werden. Mehrere Anbieter von Datensicherungslösungen bieten virtuelle Datensicherung und DR als Produkt an.

Cloud Disaster Recovery

Die weit verbreitete Akzeptanz von Cloud-Diensten ermöglicht es Unternehmen, die traditionell einen alternativen Standort für das Disaster Recovery nutzen, in der Cloud gehostet zu werden. Cloud-DR geht über eine einfache Sicherung in der Cloud hinaus. Sie erfordert, dass ein IT-Team ein automatisches Failover von Workloads auf eine öffentliche Cloud-Plattform für den Fall einer Störung einrichtet.

Disaster Recovery as a Service (DRaaS)

DRaaS ist die kommerziell verfügbare Version von Cloud-DR. Bei DRaaS stellt ein Drittanbieter die Replikation und das Hosting der physischen und virtuellen Server eines Unternehmens bereit. Der Anbieter übernimmt auf der Grundlage einer Service-Level-Vereinbarung die Verantwortung für die Umsetzung des DR-Plans, wenn eine Krise eintritt.

Disaster-Recovery-Dienste und -Anbieter

Anbieter von Disaster-Recovery-Diensten haben vielfältige Angebote, denn DR ist mehr als nur ein IT-Thema. Zu den DR-Anbietern gehören sowohl solche, die Sicherungs- und Wiederherstellungssoftware verkaufen, als auch solche, die gehostete oder verwaltete Dienste anbieten. Da Disaster Recovery auch ein Element des organisatorischen Risikomanagements ist, verbinden einige Anbieter das DR mit anderen Aspekten der Sicherheitsplanung, zum Beispiel Incident Response und der Notfallplanung. Die Optionen umfassen:

  • Backup- und Datensicherungsplattformen
  • DRaaS-Anbieter
  • Zusatzdienste von Rechenzentrums- und Colocation-Anbietern
  • Infrastructure-as-a-Service-Anbieter

Welche Option für ein Unternehmen am besten geeignet ist, hängt letztlich von den übergeordneten Plänen zur Geschäftskontinuität und den Datenschutzzielen ab und davon, welche Option diese Anforderungen zusammen mit den Budgetzielen am besten erfüllt.

Zu den wichtigsten Anbietern von Disaster-Recovery-Software und DRaaS (Stand 2021) gehören unter anderem:

  • Acronis
  • Dell EMC
  • Microsoft
  • IBM
  • VMware
  • Veeam
  • Zerto (übernommen von HP)

Anbieter von Notfallkommunikation sind ebenfalls ein wichtiger Bestandteil des Wiederherstellungsprozesses, darunter Everbridge Crisis Management, Cisco, Rave Alert, AlertMedia und BlackBerry AtHoc.

Laden Sie eine kostenlose SLA-Vorlage zur Verwendung mit Disaster Recovery-Produkten und -Services herunter.

Auch wenn es für einige Unternehmen eine Herausforderung sein mag, in einen umfassenden DR-Plan zu investieren, kann es sich kein Unternehmen leisten, dieses Konzept bei der Planung von langfristigem Wachstum und Nachhaltigkeit zu ignorieren. Im Falle eines Falles werden Firmen, die dem Disaster Recovery Priorität eingeräumt haben, weniger Ausfallzeiten haben und schneller wieder den normalen Betrieb aufnehmen können.

Diese Definition wurde zuletzt im September 2021 aktualisiert

Erfahren Sie mehr über IT-Sicherheits-Management

ComputerWeekly.de
Close