Uptime/Downtime (Betriebs- und Ausfallzeit)
Was sind Betriebs- und Ausfallzeit (Uptime/Downtime)?
In der Informatik ist die Betriebszeit ein Maß dafür, wie lange ein Computer oder Dienst eingeschaltet und verfügbar ist. Die Ausfallzeit ist ein Maß dafür, wie lange er nicht verfügbar ist. Dienste messen die Betriebszeit als Prozentsatz der Gesamtzeit.
Was ist Betriebszeit?
Die Betriebszeit gibt Benutzern Auskunft darüber, wie lange ein Computer oder ein IT-Service verfügbar war. In der Vergangenheit war die Betriebszeit hauptsächlich ein Maß für die ununterbrochene Zeit, in der ein einzelner Computer eingeschaltet war, bevor er neu gestartet oder ausgeschaltet wurde. Dies konnte mit dem einfachen Befehl uptime angezeigt werden. In einigen Fällen konnten Systemadministratoren Betriebszeiten von bis zu Jahren erreichen. Dafür ergriffen sie teils kontroverse Maßnahmen, wie das Vermeiden von Updates oder das Anwenden von Patches auf einem Live-System.

Moderne Dienste mit High Availability sind nicht mehr auf einen einzelnen Computer angewiesen. Durch Clustering und Lastverteilung kann ein einzelner Server ausfallen, ohne dass der gesamte Dienst beeinträchtigt wird. Bei phasenweisen Rollouts werden Patches und Updates nicht auf alle Server gleichzeitig, sondern nur auf Gruppen von Servern angewendet, sodass einige Server verfügbar bleiben, während andere neu gestartet werden.
Die Dienstverfügbarkeit ist heute ein besserer Maßstab für die Zuverlässigkeit eines Dienstes als nur die Betriebszeit. Diese wird oft als Prozentsatz der verfügbaren Zeit im Verhältnis zur nicht verfügbaren Zeit ausgedrückt.
Selbst 99 Prozent sind für viele Dienste inakzeptabel. Dies würde etwa drei Tagen Ausfallzeit pro Jahr entsprechen. Stattdessen wird die Verfügbarkeit in Neunen gemessen. Fünf Neunen – oder eine Verfügbarkeit von 99,999 Prozent – gelten als Goldstandard. Dies entspricht nur etwa fünf Minuten Ausfallzeit pro Jahr.
So erhöhen Sie die Betriebszeit
Zu den Strategien zur Erhöhung der Betriebszeit gehören die folgenden:
- Minimieren einzelner Fehlerquellen (Single Point of Failure)
- Verwendung redundanter Systeme mit automatischer Ausfallsicherung
- Verwendung schrittweiser Rollouts
- Einplanung von Wartungszeiten
Was ist Ausfallzeit?
Die Ausfallzeit gibt den Benutzern Auskunft darüber, wie lange ein Dienst nicht verfügbar ist. Ausfallzeiten können aufgrund von Wartungsarbeiten, Updates oder Umstrukturierungen geplant oder aufgrund eines Ausfalls ungeplant sein. Dazu gehören beispielsweise Hardwarefehler, Netzwerkausfälle, Abstürze der Software oder menschliches Versagen. Es ist unmöglich, Ausfallzeiten vollständig zu vermeiden, aber es ist wichtig, sie so gering wie möglich zu halten. Ausfallzeiten bedeuten in der Regel finanzielle Einbußen aufgrund von Umsatzverlusten, unzufriedenen Kunden oder Produktivitätsverlusten der Mitarbeiter.
Geplante und ungeplante Ausfallzeiten können je nach Service Level Agreement unterschiedlich abgedeckt werden.
So verringern Sie Ausfallzeiten
Zu den Strategien zur Verringerung von Ausfallzeiten gehören die folgenden:
- Erstellung eines Business-Continuity- und Disaster-Recovery-Plan
- Überwachung, beispielsweise mit automatisierten Monitoring-Tools wie Datadog
- Implementierung von Änderungsmanagementverfahren mit Rollback-Plänen
- Testen von Failover-Systeme
Betriebs- und Ausfallzeit auf einen Blick
Betriebszeit (Uptime) beschreibt die Zeit, in der ein System oder Dienst verfügbar ist, während Ausfallzeit (Downtime) die Nichtverfügbarkeit angibt. Verfügbarkeit wird oft als Prozentsatz gemessen, wie 99,999 Prozent (fünf Neunen) entsprechen nur etwa fünf Minuten Ausfall pro Jahr. Strategien zur Erhöhung der Uptime sind Redundanz, Failover, schrittweise Updates und geplante Wartung. Downtime lässt sich durch Monitoring, Disaster-Recovery-Pläne und sorgfältiges Änderungsmanagement minimieren.