In einer Zeit, in der Ausfallzeiten praktisch nicht mehr akzeptabel sind, stellen Hochverfügbarkeit und Ausfallsicherheitwichtige Kriterien für die Kontinuität des Geschäftsbetriebs (Business Continuity) und das technologische Disaster Recovery dar.

Sowohl Hochverfügbarkeit (High Availability, HA) als auch Ausfallsicherheit (Resiliency – Resilienz) beziehen sich auf Unterbrechungen eines Unternehmens durch Systemausfälle, Netzwerkausfälle und Anwendungsprobleme. In der IT beschreibt Hochverfügbarkeit Systeme, die für bestimmte Zeiträume ohne Unterbrechung funktionieren. Resilienz ist die Fähigkeit eines Systems, sich von einer Störung zu erholen und seine Fähigkeiten zu ändern, um sich anzupassen und auf ähnliche Ereignisse in der Zukunft besser reagieren zu können.

Trotz gemeinsamer Ziele sind HA und Resilienz keine Synonyme. Eine starke Disaster-Recovery-Strategie umfasst beide Komponenten. Für DR-Teams ist es wichtig, die Unterschiede zwischen den beiden Konzepten, ihre Beziehung zueinander und andere Leistungskennzahlen, die die Resilienz beeinflussen können, zu verstehen.

Was ist Hochverfügbarkeit? Hochverfügbarkeit beschreibt die Fähigkeit eines Systems, über einen bestimmten Zeitraum ohne Unterbrechung in Betrieb zu bleiben. Sie hebt die technologische Redundanz auf ein höheres Niveau. Redundanz bedeutet in der Regel, dass Backup-Hardware, -Software und -Storage verfügbar sind, falls die primären Ressourcen ausfallen. In vielen Fällen müssen die Benutzer die Backup-Ressourcen aktivieren. Abbildung 1: Systemredundanz in der schematischen Darstellung. HA verbessert die Redundanz, indem es einzelne Ausfallpunkte (Single Point of Failure, SPOF) reduziert, eine dynamische Systemüberwachung zur Erkennung von Ausfällen hinzufügt und eine automatische Failover-Funktion einschließt, um die Produktionsressourcen sofort auf eine alternative Plattform zu verlagern. Abbildung 2: Aufbau eines Hochverfügbarkeitssystems. Das Backup-System kann sich in einem Rechenzentrum oder an einem alternativen Standort befinden, zum Beispiel bei einem Cloud-Service. Die Zeit, die für die Wiederherstellung und den Neustart des Systems nach einem Failover benötigt wird, hängt von der verfügbaren Netzwerkbandbreite und der für das Failover verwendeten Technologie ab. HA-Systeme sind in der Regel darauf ausgelegt, ein bestimmtes Verfügbarkeitsniveau zu erreichen, das oft als prozentuale Betriebszeit bezeichnet wird. Ein Beispiel wie die Verfügbarkeit von fünf Neunen bedeutet, dass das System 99,999 Prozent der Zeit verfügbar ist. Dies entspricht einer Ausfallzeit von weniger als sechs Minuten im Jahr. Eine höhere Verfügbarkeit ist in der Regel mit höheren Kosten verbunden, steigert aber auch die DR-Fähigkeiten eines Unternehmens erheblich. Die Technologie zur Überwachung der Systemleistung, die Kosten für Backup-Ressourcen und die Ressourcen, die ein Unternehmen für die Einrichtung einer HA-Funktion benötigt, sind höher als bei einer einfachen Redundanz. Es ist eine gute Praxis, Ersatzteile für kritische IT-Anlagen, Stromversorgungssysteme, Netzwerkkomponenten und andere Ressourcen vorzuhalten.

Was ist Fehlertoleranz? Das Modell der Hochverfügbarkeit geht mit der Fehlertoleranz (Fault Tolerance) noch einen Schritt weiter. Das bedeutet, dass ein System so konzipiert ist, dass es so gut wie nie ausfällt, abgesehen von ungewöhnlichen Umständen wie Naturkatastrophen und anderen unvorhergesehenen Ereignissen. Hochverfügbarkeit und Fehlertoleranz werden in der Regel mit Hardware und Netzwerkelementen in Verbindung gebracht. Software, fällt in HA- und fehlertoleranten Systemen gleichermaßen aus. Abbildung 3: Fehlertolerante Systeme gehen noch einen Schritt weiter als HA-Systeme. Eine Möglichkeit für Unternehmen, Fehlertoleranz zu erreichen, besteht darin, vollständig gespiegelte Systeme einzurichten, die sofort aktualisiert werden, sobald das Primärsystem aktualisiert wird. In diesem Szenario werden einzelne Fehlerquellen (SPOF) weitgehend eliminiert. Gespiegelte Systeme befinden sich im ständigen Standby-Modus und sind bereit, die Verarbeitung eines gestörten Systems zu übernehmen. Wenn die Systemüberwachung ein Problem feststellt, das einen vorgegebenen Schwellenwert überschreitet, werden die Produktionsaufgaben sofort auf die Standby-Ressourcen übertragen, so dass die Produktion nicht unterbrochen wird. Diese Ressourcen können sich lokal oder an einem entfernten Standort befinden, in der Regel in einer Cloud. Aufgrund der zusätzlich erforderlichen Systeme und Ressourcen sind die Kosten für Fehlertoleranz höher als für Hochverfügbarkeit.