.shock - stock.adobe.com

Fünf Lektionen für widerstandsfähige Business Continuity

Fehler bei der Business Continuity sind kostspielig und können den Ruf eines Unternehmens schädigen. Fünf Beispiele zeigen, was schiefgehen kann und was wir daraus lernen können.

Die beste Planung für die Geschäftskontinuität erfolgt, bevor ein Vorfall eintritt, aber IT-Teams können aus den Fehlern anderer lernen, um ihre eigene Planung zu verbessern.

Niemand erzählt freiwillig darüber, wenn ihm Fehler unterlaufen. Unternehmen mit kritischen Situationen in der Business Continuity (BC) sind da keine Ausnahme. Gerade weil Störungen der Business Continuity eine Lernmöglichkeit für andere Unternehmen darstellen, ist es bedauerlich, dass Beispiele aus der Praxis schwer zu finden sind – es sei denn, das Unternehmen ist so bekannt, dass das Problem in den Nachrichten erscheint.

Ein Artikel wie dieser kann selbstverständlich nicht detailliert auf den Business-Continuity-Plan eines bestimmten Unternehmens eingehen oder vermitteln, was konkret vom IT-Team vor Ort unternommen ist. Dennoch bieten die Beispiele Einblicke in die IT-Prozesse in anderen Unternehmen und die Aspekte, die wahrscheinlich fehlten oder falsch umgesetzt wurden.

CrowdStrike-Sicherheitsupdate legt Millionen von Windows-Systemen lahm

Am 19. Juli 2024 verschickte der Sicherheitsanbieter CrowdStrike ein fehlerhaftes Update für seinen Sensor-Treiber, das zu einer der größten IT-Ausfälle in der Geschichte führte. Schätzungen zufolge waren etwa 8,5 Millionen Windows-Geräte betroffen, was zu erheblichen Störungen bei Fluggesellschaften, Gesundheitssystemen, Finanzdienstleistern und Medienunternehmen führte.

Experten schätzen, dass der Ausfall die betroffenen Fortune-500-Unternehmen 5,4 Milliarden US-Dollar kostete. Als Folge des Ausfalls hat CrowdStrike seine Update-Verfahren reformiert, um ähnliche Störungen in Zukunft zu verhindern.

Was wir daraus lernen können

Eine wichtige Erkenntnis aus dem Ausfall von CrowdStrike war die übermäßige Abhängigkeit von Unternehmen von Technologie und Automatisierung. Automatisierte Updates halten IT-Systeme zwar auf dem neuesten Stand, können aber im Fehlerfall massive Folgen haben, wenn kein abgestuftes Rollout oder vorgelagerte Tests vorgesehen sind. Zwar gab es manuelle Workarounds, um die Systeme wiederherzustellen, doch vielen Unternehmen fehlte ausreichend Personal vor Ort, um diese zeitnah umzusetzen.

IT-Automatisierung ist in vielerlei Hinsicht vorteilhaft, doch der Ausfall von CrowdStrike unterstreicht, wie wichtig es ist, bei kritischen Prozessen den Menschen mit einzubeziehen.

Abbildung 1: Unternehmen müssen ihre Business-Continuity-Pläne regelmäßig überprüfen und aktualisieren, um deren Wirksamkeit sicherzustellen.
Abbildung 1: Unternehmen müssen ihre Business-Continuity-Pläne regelmäßig überprüfen und aktualisieren, um deren Wirksamkeit sicherzustellen.

Systemausfall der FAA führt zu Flugverbot in den USA

Am 11. Januar 2023 wurden Tausende von Flügen in den USA aufgrund eines stundenlangen Ausfalls des NOTAM-Systems (Notice to Air Missions) der FAA (Federal Aviation Administration) gestrichen. NOTAM ist ein kritisches System, das Piloten vor dem Start konsultieren müssen, um sich über Gefahren oder Start- und Landebahnschließungen zu informieren.

Die FAA gab an, dass die Ursache ein fehlerhafter Dateivorgang war. Die Ausfallzeit hätte jedoch deutlich verkürzt werden können, wenn die Infrastruktur moderner gewesen wäre und eine höhere Verfügbarkeit geboten hätte. Es mag zwar schwierig sein, ein seit langem bestehendes, international genutztes System wie NOTAM zu ersetzen, doch können Unternehmen, die sich gegen den Austausch bestehender Systeme sträuben, aus diesem Vorfall der Business Continuity lernen. Veraltete Systeme, die die Umsetzung aktueller Standards und Wiederherstellungszeiten verhindern, erschweren die Business Continuity zusätzlich.

Was wir daraus lernen können

IT-Teams in Unternehmen, die – aus welchen Gründen auch immer – Altsysteme nicht ersetzen können, sollten Business-Continuity-Strategien priorisieren, zum Beispiel das Wissen, wie man Tests ohne Betriebsunterbrechungen durchführt, die Suche nach hochverfügbaren Prozessen und die Überprüfung der Backup-Integrität. Sie können auch auf hochkarätige Vorfälle wie den Ausfall des FAA-Systems als Beweis für den Bedarf an neuen Systemen verweisen.

Ausfall von Microsoft Azure/Office legt Nutzer weltweit lahm

Ebenfalls im Januar 2023 kam es bei Microsoft zu einem größeren Ausfall, von dem Nutzer auf der ganzen Welt, insbesondere aber in Europa, betroffen waren.

Durch den Ausfall konnten viele geschäftliche und private Nutzer nicht mehr auf ihre E-Mails und Dateien zugreifen oder die Azure-Infrastruktur verwalten. Die Ursache wurde schließlich auf eine fehlerhafte Routing-Änderung zurückgeführt, die Microsoft an seiner zentralen Routing-Infrastruktur vorgenommen hatte.

Was wir daraus lernen können

Leider gibt es keine allgemeingültige Lösung für Cloud-Landschaften wie Azure. Größere Unternehmen können Ausfälle durch die Nutzung mehrerer Regionen abmildern. In diesem Fall verfügt jede Region über mehrere Rechenzentren, die Hunderte von Kilometern voneinander entfernt sind und keine Ressourcen gemeinsam nutzen. Damit führt der Ausfall einer einzelnen Region nicht zum Ausfall der gesamten Umgebung.

Für kleinere Unternehmen kann es sinnvoller sein, integrierte Disaster-Recovery-Tools wie die in Azure zu verwenden, um ein vollständiges Failover durchzuführen und schnell wieder betriebsbereit zu sein. Dies erfordert zwar eine gewisse Vorausplanung, aber nicht die Komplexität und Kosten einer redundanten Konfiguration.

Größere Unternehmen mit einem Bedarf an Hochverfügbarkeit können stattdessen mit entsprechenden Funktionen den Ausfall eines Rechenzentrums durch Redundanz und Umleitung des Datenverkehrs bewältigen. In manchen Fällen kann auch eine Multi-Cloud-Strategie sinnvoll sein, um Abhängigkeiten von einem einzelnen Anbieter zu verringern.

Feuer beschädigt das Rechenzentrum von OVHcloud – und seinen Ruf

Selbst die größten Unternehmen mit unbegrenzten Ressourcen können Brände oder Naturkatastrophen nicht vollständig ausschließen. Bei extremen Wetterbedingungen ist die Aufrechterhaltung des Geschäftsbetriebs eine Frage der Vorbereitung. Leider war OVHcloud darauf nicht ausreichend vorbereitet.

Im März 2021 brach in einem der Rechenzentren des Cloud-Anbieters ein Feuer aus. Die Brandbekämpfungsmaßnahmen waren nicht ausreichend. Viele Kunden stellten am nächsten Morgen fest, dass ihre gemieteten Server offline waren. Zu allem Übel wurde eines der Backup-Arrays durch das Feuer vollständig zerstört, wodurch wichtige Backups verloren gingen, die der Dienstleister zur Wiederherstellung der Kundendaten hätte verwenden können.

Diese Krise beeinträchtigte nicht nur die unmittelbaren Geschäftsfunktionen – auch der Ruf von OVHcloud litt unter dem Ausfall, und das Unternehmen wurde von mehr als 140 seiner Kunden mit einer Sammelklage in Höhe von 10 Millionen Dollar konfrontiert.

Was wir daraus lernen können

Der Ausfall der Business Continuity bei OVHcloud verdeutlicht die Bedeutung der 3-2-1-Regel für die Datensicherung. Mehrere Backups auf unterschiedlicher Hardware an verschiedenen Standorten sind der sicherste Weg, um Daten bei einem Brand oder einer Naturkatastrophe zu schützen. Auf diese Weise gibt es auch bei einer Zerstörung des Rechenzentrums noch ein Daten-Backup an einem anderen Ort, das der Kunde wiederherstellen kann, um die Dienste wieder in Betrieb zu nehmen.

Ransomware kompromittiert NHS Foundation Trust

NHS (der National Health Service) ist einer der größten Arbeitgeber im Vereinigten Königreich. Ausfallzeiten verursachen erhebliche Kosten und gefährden die öffentliche Gesundheitsversorgung. Der Ransomware-Angriff auf den NHS am 4. August 2022 ist ein Paradebeispiel für die Herausforderungen bei der Business Continuity im Gesundheitswesen.

Die Beseitigung der Folgen des Angriffs, der sich gegen einen großen Softwareanbieter des NHS richtete, dauerte mehrere Monate. In der Anfangsphase mussten die Mitarbeiter an vorderster Front wieder zu Stift und Papier greifen und sich mit den wenigen nicht computergestützten Unterlagen begnügen, die ihnen zur Verfügung standen. Die Verzögerung bei der Wiederherstellung des Dienstes ging zum Teil auf die Auswirkungen des Angriffs auf die Altsysteme zurück.

Dieses Ereignis machte auch ein weiteres Problem sichtbar: versteckte Schatten-IT-Systeme, die von Mitarbeitern ohne oder mit nur geringer professioneller IT-Aufsicht installiert worden waren.

Was wir daraus lernen können

Alte IT-Systeme verursachen häufig höhere Wartungskosten und werden bei Wartung und Updates eher vernachlässigt. Es ist leichter gesagt als getan, aber eine Möglichkeit, diese Probleme zu vermeiden, ist der Austausch alter Systeme.

Unternehmen müssen außerdem strenge Richtlinien für die Anschaffung und Verwaltung von IT-Systemen und Software haben. Jeder Kauf muss streng kontrolliert und in Absprache mit den IT-Mitarbeitern erfolgen, da diese oft Probleme kennen, die technisch weniger versierten Managern möglicherweise nicht bewusst sind.

Erfahren Sie mehr über Data-Center-Betrieb