
chones - stock.adobe.com
Stromausfälle in Rechenzentren: Ursachen und Vermeidung
Stromausfälle in Rechenzentren zu vermeiden ist wichtig für die Business Continuity. Erfahren Sie, mit welchen Strategien Sie ihre kritische Infrastruktur vor Ausfällen schützen.
Heutige hochentwickelte Rechenzentren wickeln geschäftskritische Vorgänge und Prozesse ab, sodass eine Abschaltung selbst für kurze Zeit nicht möglich ist. IT- und Notfallteams müssen darauf vorbereitet sein, Ausfälle im Rechenzentrum zu minimieren.
Stromausfälle oder -störungen führen zwar nicht unbedingt zu einem vollständigen Blackout, können jedoch den Betrieb im Rechenzentrum beeinträchtigen. Störungen können zu einem teilweisen oder vollständigen Ausfall des Rechenzentrums oder zu einem nicht normgerechten Betrieb führen. Selbst eine teilweise Verzögerung bei kritischen Systemen kann zu einer inakzeptablen Leistung der Rechenzentrumsausrüstung führen, wodurch Service-Level-Vereinbarungen verletzt werden oder das Vertrauen der Kunden verloren geht.
Trotz aller Vorkehrungen, die Firmen treffen können, um eine unterbrechungsfreie Stromversorgung für Rechenzentren zu gewährleisten, können Situationen auftreten, die den kontinuierlichen Betrieb gefährden. Notstromstrategien sind ein wichtiger Bestandteil der DR-Planung. Ohne Notstromsysteme und Strategien zum Schutz der Stromversorgung sind Rechenzentren ernsthaft gefährdet.
Zwar ist kein Stromversorgungssystem zu 100 Prozent ausfallsicher, doch können Unternehmen Sicherheitsvorkehrungen treffen, um die Wahrscheinlichkeit einer ungeplanten Unterbrechung zu verringern. Das Ziel besteht darin, das Risiko eines Komponentenausfalls zu minimieren und den Betrieb so schnell wie möglich wieder auf den normalen Stand zu bringen. In diesem Artikel werden häufige Ursachen für Stromausfälle in Rechenzentren erläutert und Tipps zu deren Behebung gegeben.
Häufige Ursachen für Stromausfälle in Rechenzentren
Es gibt mehrere häufige Ursachen für Stromausfälle in Rechenzentren, die jeweils ihre eigenen zerstörerischen Auswirkungen haben. IT- und DR-Mitarbeiter sollten mit diesen Störungen vertraut sein und wissen, wie sie sich auf die vorhandene Infrastruktur auswirken können.
Wetterbedingte Ereignisse
Schwere Stürme, Erdbeben, Tsunamis, Hurrikane, Tornados, Überschwemmungen, Schlammlawinen oder Blitzeinschläge können Stromleitungen und wichtige Versorgungsinfrastrukturen beschädigen, was die Stromversorgung in einem großen geografischen Gebiet beeinträchtigen kann. Extreme Temperaturen können Kühlsysteme überlasten und möglicherweise zu Ausfällen führen.
Störungen bei Versorgungsunternehmen
Das nationale Stromnetz in den USA besteht aus vielen miteinander verbundenen Stromsystemen. Rechenzentren können bei regionalen Stromausfällen oder Spannungsabfällen, die durch hohe Nachfrage oder Geräteausfälle verursacht werden können, den Strom verlieren. Darüber hinaus altert die nationale kritische Infrastruktur weiter, was zu Ausfällen führen kann.
Gerätefehlfunktionen
Ausfälle von Primär- oder Backup-Systemen können zu längeren Ausfällen sowohl für Versorgungsunternehmen als auch für Endnutzer führen. Fehlerhafte Hardware oder Software in Energiemanagementsystemen kann ebenfalls Ausfälle verursachen.
Menschliches Versagen
Mitarbeiter von Versorgungsunternehmen tragen eine große Verantwortung für die Aufrechterhaltung der Stromversorgung, und unzureichende Mitarbeiterschulungen können zu Fehlern bei der Wartung oder bei System-Upgrades führen. Selbst erfahrene Techniker von Versorgungsunternehmen können gelegentlich Fehler machen.
Cybersicherheitsvorfälle
Cybersicherheitsangriffe sind eine wachsende Bedrohung für die kritische Strominfrastruktur des Landes. Gezielte Ransomware-Angriffe oder das Hacken von Stromüberwachungssoftware können ausgenutzt werden, um die Stromerzeugung und -versorgung zu gefährden.
Strategien zur Vermeidung von Stromausfällen
Der Schutz von Rechenzentren vor ungeplanten Stromausfällen erfordert ein gut konzipiertes Programm für Wartung, Tests, Dokumentation, Überwachung und Analyse der Stromleistungsdaten. Im Folgenden finden Sie eine Liste der wichtigsten Strategien für die Einrichtung einer robusten, sicheren und ausfallsicheren Stromversorgung:
- Stromversorgungsunternehmen sind wichtige Partner für den Betrieb von Rechenzentren. Eine enge Zusammenarbeit mit Netzbetreibern und regelmäßige Überprüfungen der Stromqualität halten Unternehmen auf dem Laufenden und informieren sie über den Status ihrer Ressourcen.
- Die Stromqualität kann je nach Anbieter stark variieren. Daher ist es unerlässlich, in Geräte zu investieren, die Stromanomalien wie Spannungs- oder Frequenzschwankungen, Einbrüche, Spitzen, Überspannungen, Spannungsabfälle oder Stromausfälle beseitigen oder minimieren. Dazu gehören Stromaufbereiter, Netzfilter, Überspannungsschutzgeräte, Blitzableiter und viele andere Geräte.
- Die Versorgung mit primärem Strom aus zwei verschiedenen Stromnetzen und die Weiterleitung dieses Stroms über verschiedene Wege zum Rechenzentrum kann die Chancen eines Unternehmens auf eine Wiederherstellung nach einem Stromausfall verbessern. Die Kosten für die Planung und den Aufbau einer derart diversifizierten Strominfrastruktur können jedoch sehr hoch sein.
- In mittleren bis großen Rechenzentren umfassen Notstromsysteme in der Regel ein zentrales unterbrechungsfreies Stromversorgungssystem (USV), das bei Ausfall der kommerziellen Stromversorgung eine kontinuierliche Stromversorgung gewährleistet. Wenn die Tanks nachgefüllt werden, können motorbetriebene Generatoren unbegrenzt laufen.
- Richten Sie primäre und alternative Kraftstoffquellen für Notstromaggregate ein und sorgen Sie nach Möglichkeit für eine beschleunigte Kraftstofflieferung, auch wenn dies zusätzliche Kosten verursacht.
- Konfigurieren Sie Notstromsysteme so, dass sie Notstrom für die erwartete Computerlast, das HVAC-System des Rechenzentrums, Telekommunikationsschränke, Notbeleuchtung und andere Lasten nach Bedarf liefern.
- Dimensionieren Sie das Notstromsystem so, dass es die erwarteten Lasten bewältigen kann.
- Bei Verwendung modularer USV-Geräte kann die Notstromversorgung durch zusätzliche USV-Module und Batterien erweitert werden.
- Um sicherzustellen, dass die Notstromsysteme im Bedarfsfall funktionieren, führen Sie regelmäßige Tests durch, insbesondere bei mittlerer bis voller elektrischer Last.
- Neben regelmäßigen Tests ist ein Wartungsprogramm unerlässlich. Dazu gehören die Planung von Tests der Primär- und Notstromversorgungssysteme, regelmäßige Inspektionen und die Befolgung der Herstellerempfehlungen für Wartung und Support.
- Benchmarking ist eine weitere Strategie für den Stromschutz. Dabei wird ein Tracking-Mechanismus eingerichtet, der die Ergebnisse jedes Tests dokumentiert. Anhand dieser Daten lassen sich potenzielle Probleme erkennen, bevor sie auftreten.
- Erwägen Sie die Installation von Notstromversorgungssystemen, die mit Lastbänken ausgestattet sind, die 100 Prozent der Generatorleistung liefern können. Dies ermöglicht vollständige Tests ohne Beeinträchtigung des Betriebs des Rechenzentrums.
- Entwickeln Sie Notfallverfahren für die Reaktion auf Stromprobleme, wobei die Auswirkungen auf kritische Rechenzentrumssysteme minimiert werden sollten. Solche Verfahren sollten Schritt-für-Schritt-Anweisungen für bestimmte Notfälle enthalten.
- Stellen Sie sicher, dass geschultes Wartungspersonal für die Wiederherstellung des Stromversorgungssystems zur Verfügung steht. Wenn die Mitarbeiter vor Ort mit dem Betrieb des Stromversorgungssystems nicht vertraut sind, holen Sie die erforderlichen Informationen vom Gerätehersteller ein oder beauftragen Sie einen auf Stromversorgungssysteme spezialisierten Dienstleister.
- Stellen Sie sicher, dass die Dokumentation des Stromversorgungssystems auf dem neuesten Stand ist und dass die Dokumente in elektronischer Form und als Ausdruck verfügbar sind.
- Stellen Sie primäre und sekundäre Stromversorgungssysteme an sicheren Orten auf, um unbefugten Zugriff zu verhindern.
- Wenn möglich, nehmen Sie Stromversorgungssysteme vor der Inbetriebnahme in Betrieb. Bei der Inbetriebnahme werden alle Komponenten des Stromversorgungssystems im gesamten Rechenzentrum durchgängig geprüft und getestet, um sicherzustellen, dass alle Komponenten ordnungsgemäß zusammenarbeiten.
- Investieren Sie in KI-Technologie, um die Überwachung, Problemerkennung und -behebung sowie die Einhaltung gesetzlicher Vorschriften zu verbessern.
Die Rolle der KI bei der Vermeidung von Ausfällen
Viele der in diesem Artikel beschriebenen Strategien lassen sich mit künstlicher Intelligenz (KI) umsetzen. Heutige Energieverwaltungssysteme verfügen über KI-Elemente, die folgende Funktionen übernehmen:
- Vorausschauende Wartung (Predictive Maintenance). KI kann Systemleistungsdaten mithilfe von Algorithmen analysieren, die potenzielle Ausfälle von Stromversorgungsanlagen vorhersagen.
- Energieoptimierung. KI-Tools können anhand von Stromverbrauchsmustern den Energieverbrauch und die Systemeffizienz optimieren.
- Identifizierung und Reaktion auf potenzielle Fehler. Die Erkennung potenzieller Fehlerzustände mithilfe von KI identifiziert Anomalien in Echtzeit und leitet autonom eine Reaktion ein.
- Echtzeit-Lastmanagement. Bei der Erkennung eines Stromproblems können KI-Tools während Stromunterbrechungen automatisch die Arbeitslasten auf verschiedene Computergeräte verteilen und so geschäftskritische Vorgänge aufrechterhalten.
- Unterstützung beim Disaster Recovery von Rechenzentren. Administratoren von Stromversorgungssystemen in Rechenzentren können KI-gesteuerte Simulationen und Szenarioplanung nutzen, um sich auf Stromausfälle vorzubereiten.
- Automatisierte Fernüberwachung. KI kann Stromaktivitäten aus der Ferne überwachen und die Überwachung mehrerer Rechenzentren unterstützen.
Die tatsächlichen Kosten von Stromausfällen in Rechenzentren
Ein Stromausfall im Rechenzentrum kann Unternehmen jeder Größe und Branche schaden. Zu den Folgen einer Unterbrechung können die nicht fristgerechte Lieferung von Produkten und Dienstleistungen, Kundenverluste, Umsatzverluste und Reputationsschäden gehören.
So schalteten beispielsweise im Jahr 2024 60 Rechenzentren in Nord-Virginia gleichzeitig auf Notstromaggregate um, was aufgrund eines Blitzableiterausfalls an einer Hochspannungsleitung fast zu einem Stromausfall geführt hätte.
Laut einem Report des Uptime Institute, das Leitlinien zum Schutz von Rechenzentren vor Ausfällen und zur Erhöhung der Betriebszeit und Verfügbarkeit bereitstellt, kosten 70 Prozent der Ausfälle mehr als 100.000 US-Dollar, während einige aufgrund von entgangenen Kundeneinnahmen und Reputationsschäden sogar Millionen kosten können. Der Bericht des Uptime Institute für 2024 stellte fest, dass etwa 55 Prozent der Unternehmen in den letzten drei Jahren mindestens einen Ausfall eines Rechenzentrums gemeldet haben. Der Bericht stellte außerdem fest, dass 71 Prozent dieser Ausfälle auf Fehler in Stromversorgungs- und Kühlsystemen zurückzuführen waren, wobei menschliches Versagen eine wesentliche Rolle spielte.
Es gibt nicht wirklich vergleichbare Zahlen für den europäischen oder deutschen Raum, wenn es um die aktuellen Kosten eines Stromausfalls im Rechenzentrum geht. Generell sind solche Zahlen immer mit Vorsicht zu betrachten. Die Kosten sind in der Regel vom Ausmaß des Ausfalls, der Größe des Rechenzentrums und der Anzahl der betroffenen Geschäftsbereiche abhängig.