Kesu - Fotolia
Von der Störung zur Lösung: Wie Firmen IT-Ausfälle beheben
Ausfälle bei großen Cloud-Plattformen trafen im Oktober 2025 zahlreiche digitale Dienste. Unternehmen müssen ihre Observability und Resilienzstrategien neu bewerten.
Im Oktober 2025 beeinträchtigte eine IT-Störung bei einem großen Cloud-Anbieter die Anwendungen und Websites von mehreren hundert Unternehmen und Behörden weltweit. Kurz darauf kam es bei einem weiteren Public-Cloud-Anbieter zu einer erheblichen Störung, von der ebenfalls Hunderte webbasierte Dienste betroffen waren – von kundenorientierten Anwendungen bis hin zu Online-Spielen. Der Ausfall führte zu weitreichenden Verbindungsproblemen für Millionen von Nutzern und machte deutlich, wie stark die moderne Kommunikation von einer kleinen Anzahl großer Cloud-Anbieter abhängt.
Laut der Annual Outage Analysis 2025 des Uptime Institute zählen Konfigurations- oder Änderungsmanagementfehler zu den Hauptursachen für IT-Ausfälle. Sie sind für 45 Prozent der Netzwerkausfälle sowie für 64 Prozent der System- und Softwareausfälle verantwortlich. Störungen können dabei grundsätzlich in allen Unternehmen auftreten, auch in solchen, die über moderne, nach aktuellem Stand der Technik entwickelte Systeme verfügen.
Was Unternehmen aus diesen IT-Ausfällen lernen können
Große wie kleine Unternehmen mussten sich im vergangenen Oktober mit den Ausfällen ihrer Cloud-Anbieter auseinandersetzen, ähnlich wie bereits bei den großflächigen Störungen im Sommer 2024. Die Auswirkungen solcher Ereignisse können in Unternehmensumgebungen erheblich sein und unterstreichen die Bedeutung einer guten Vorbereitung. Betrachtet man Ursache und Dauer dieser Vorfälle, lassen sich klare Gemeinsamkeiten erkennen.
Im Sommer 2024 führte ein fehlerhaftes Software-Update zu Störungen, die mehrere Stunden bis hin zu mehreren Tagen anhielten, während die betroffenen Unternehmen an der Behebung arbeiteten. Im Oktober dauerte es rund 15 Stunden, bis ein Problem im Domain-Namen-System (DNS) von der ersten Erkennung bis zur vollständigen Behebung gelöst war. Ein weiterer Vorfall ging auf eine fehlerhafte Konfigurationsänderung zurück und verursachte einen achtstündigen Ausfall.
![]()
„Eine Observability-Strategie, die mithilfe von DPI Sichtbarkeitslücken im gesamten Unternehmen schließt, von Remote-Standorten bis hin zu Hybrid- und Multi-Cloud-Umgebungen, kann die MTTR deutlich verkürzen. DPI-basierte Observability macht reale Datenströme sichtbar und zeigt in Echtzeit, wie Anwendungen, Dienste und Netzwerke miteinander interagieren.“
Christian Syrbe, Netscout
Solche Probleme sind keine Ausnahme und können in jedem Unternehmensnetzwerk auftreten. Die Dauer eines Ausfalls variiert dabei stark, was die Unvorhersehbarkeit von IT-Störungen und die Notwendigkeit einer belastbaren Notfallplanung deutlich macht.
Die Notwendigkeit einer schnellen Reaktion auf IT-Ausfälle
Nach zwei großen Internetausfällen innerhalb nur einer Woche ist davon auszugehen, dass IT- und Führungskräfte in Unternehmen und Behörden weltweit intensive Gespräche führen. Dabei geht es unter anderem um Themen wie Ausfallsicherheit, Notfallwiederherstellung (Disaster Recovery, DR) und Redundanz von Systemen. Ebenso stehen neue Richtlinien und Prozesse für den Umgang mit Störungen zur Diskussion.
Ein vierstufiger Ansatz kann Unternehmen helfen, besser durch eine Störung zu kommen:
- Implementierung einer vollständigen Observability-Lösung einschließlich Überwachung auf Basis von Deep Packet Inspection (DPI)
- Etablierung klarer Prozesse zur Vorbereitung auf Vorfälle
- Verständnis darüber, was kontrollierbar ist und was nicht
- Förderung der Zusammenarbeit zwischen internen Teams und externen Anbietern
Wie Observability die MTTR beeinflusst
Die Frage, wie schnell ein Unternehmen einen Ausfall erkennt und behebt, verdeutlicht den Wert von Observability für die Verkürzung der mittleren Wiederherstellungszeit (Mean Time To Recovery, MTTR). Ein IT-Forschungs- und Beratungsunternehmen stellte fest, dass lediglich 29 Prozent der Befragten mit ihrer Überwachungslösung vollständig zufrieden sind. Veraltete, reaktive Tools zur Fehlerbehebung, isolierte herstellerspezifische Lösungen und fehlende Transparenz haben dazu geführt, dass viele Überwachungsansätze den Anforderungen moderner IT-Umgebungen nicht mehr gerecht werden.
Observability- und DPI-Lösungen im großen Maßstab
Der Einsatz einer geeigneten Observability-Lösung, ergänzt durch DPI (Deep Packet Inspection) in großem Maßstab, kann die MTTR deutlich reduzieren, wenn Probleme im Netzwerk auftreten. Die Netzwerkarchitektur hat sich in den vergangenen Jahren stark verändert und ist heute häufig dezentral und hybrid aufgebaut. Kritische Unternehmensdienste laufen teilweise weiterhin in privaten Cloud-Umgebungen, während viele alltägliche Anwendungen über öffentliche Clouds, Colocation-Rechenzentren oder Software-as-a-Service- und UCaaS-Anbieter bereitgestellt werden.
Mitarbeiter greifen über VPN- oder VDI-Lösungen zu, die in Colocation-Standorten gehostet sind, während Internet- und WAN-Dienste von verschiedenen Anbietern weltweit geliefert werden. Der Weg vom Endnutzer zur Anwendung ist dadurch erheblich komplexer geworden, und IT-Organisationen verfügen nicht mehr über vollständige Transparenz oder Kontrolle über alle potenziellen Fehlerquellen.
Eine Observability-Strategie, die mithilfe von DPI Sichtbarkeitslücken im gesamten Unternehmen schließt, von Remote-Standorten bis hin zu Hybrid- und Multi-Cloud-Umgebungen, kann die MTTR deutlich verkürzen. DPI-basierte Observability macht reale Datenströme sichtbar und zeigt in Echtzeit, wie Anwendungen, Dienste und Netzwerke miteinander interagieren. Fällt beispielsweise DNS aus, unterbricht ein Software-Update eine Abhängigkeit oder beeinträchtigt eine Konfigurationsänderung die Dienstbereitstellung, lässt sich mit DPI präzise feststellen, wo das Problem entsteht und welche Nutzer betroffen sind. Dadurch sinkt sowohl die durchschnittliche Zeit bis zur Ursachenanalyse als auch die gesamte MTTR.
Vorbereitung auf geringere MTTR in modernen Netzwerken
Langwierige Störungsbehebungen erhöhen das Geschäftsrisiko, insbesondere in hochgradig verteilten und komplexen Netzwerken, die stark von Drittanbietern abhängen. Ohne umfassende Transparenz wird es zunehmend schwieriger, Probleme zu identifizieren und Dienste schnell wiederherzustellen. Eine durchdachte Observability-Strategie hilft Unternehmen dabei, Kontrolle zurückzugewinnen, Reaktionszeiten zu verkürzen und die Ausfallsicherheit ihrer digitalen Umgebung nachhaltig zu stärken.
Über den Autor:
Christian Syrbe ist als Chief Solutions Architect beim Business Assurance und Security Anbieter Netscout in der Sales Organisation für Netzwerk Visibiltät, Security sowie für Cloud und Virtualisierung verantwortlich. Er ist seit über 20 Jahren in der IT-Branche tätig und verfügt über umfassende Erfahrung im Bereich Netzwerk, Netzwerkmanagement, Analyse, Security, Service Assurance, Data Analytics und IT Performance.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.