WavebreakmediaMicro - stock.adob

Checkliste: Serverwartung in sieben einfachen Schritten

Für eine effektive Serverwartung sind viele kleine Handgriffe nötig, vom Entstauben über Tests bis zur Dokumentation. Mit dieser Checkliste ist die Wartung schnell erledigt.

von

Stephen J. Bigelow, Senior Technology Editor

Zuletzt aktualisiert:12 Febr. 2020

Selbst bei der enormen Leistung und den redundanten Funktionen zeitgemäßer Server gilt: Eine starke Workload-Auslastung und hohe Ansprüche an die Zuverlässigkeit können die Serverhardware in Mitleidenschaft ziehen.

Eine Checkliste für die Serverwartung sollte sowohl physische Elemente abdecken als auch die Software des Systems. Die Liste muss auch berücksichtigen, dass eine gründliche Wartung viel Zeit, Arbeit und Tests erfordert. Doch der Aufwand lohnt sich: Unsere Checkliste hilft Administratoren dabei, ihre Ziele zu definieren und ihre IT am Laufen zu halten.

1. Entwickeln Sie eine Wartungsroutine

Serveradministratoren vergessen oft die Planung von Wartungsfenstern. Man sollte dies nicht hinauszögern, bis es tatsächlich zu einem Ausfall kommt. Nehmen Sie sich Zeit für die routinemäßige präventive Wartung der Server.

Die Wartungshäufigkeit hängt vom Alter der Geräte, dem Rechenzentrum und der Anzahl der zu wartenden Server ab. So sollten beispielsweise ältere Geräte in einem Serverschrank häufiger überprüft werden als neue Server, die in einem hocheffizienten und gut gekühlten Rechenzentrum eingesetzt werden.

Unternehmen sollten sich mit ihren routinemäßigen Wartungsplänen an den Routinen von Anbietern oder Drittanbietern orientieren. Wenn der Servicevertrag des Anbieters alle vier oder sechs Monate Systeminspektionen vorsieht, sollten auch Sie diesem Zeitplan folgen.

2. Bereiten Sie sich auf Ausfallzeiten vor

Treffen Sie die notwendigen Vorkehrungen, bevor Sie die Punkte einer Serverwartungs-Checkliste abarbeiten. Dazu gehört die Überprüfung der Systemprotokolle auf Fehler oder Ereignisse, die Ihre sofortige Aufmerksamkeit erfordern.

Wenn ein Protokoll auf Fehler mit einem bestimmten Speichermodul hinweisen, sollten Sie ein neues Dual Inline Memory Module (DIMM) bestellen und es für die Installation bereitstellen. Sind Firmware-, Betriebssystem- oder Anwendungs-Patches, beziehungsweise -Updates verfügbar, testen und überprüfen Sie diese, bevor Sie das geplanten Wartungsfenster öffnen.

Legen Sie im Voraus genau fest, wann das System offline geschaltet und wieder in Betrieb genommen wird. Vor den Zeiten der Virtualisierung benötigten Server und die auf ihnen laufenden Anwendungen eine Auszeit, während Wartungen vorgenommen wurden, sodass Administratoren diese nachts oder am Wochenende erledigten.

Abbildung 1: Checkliste für die präventive Serverwartung

Virtualisierte Server ermöglichen die Migration von Workloads und können so Ausfallzeiten vermeiden. Administratoren migrieren Anwendungen vorübergehend auf einen anderen Server, so dass sie verfügbar bleiben, während auf dem ursprünglichen Host-System Serverwartungen erfolgen.

Bringen Sie in Erfahrung, wo die virtuellen Maschinen (Virtual Machines, VM) abgelegt werden sollen. Migrieren Sie VMs auf die dafür vorgesehenen Systeme und überprüfen Sie, ob die einzelnen Workloads funktionsfähig sind, bevor Sie den Server für Wartungszwecke herunterfahren.

Nun können die Administratoren den Server herunterfahren und aus dem Rack entfernen.

3. Überprüfen des Luftstroms

Sobald ein Server offline ist, checken Sie am besten visuell seine externen und internen Luftströmungswege. Entfernen Sie alle Staubansammlungen und Ablagerungen, die den Luftstrom blockieren könnten.

Beginnen Sie mit den äußeren Lufteinlässen und Luftauslässen. Öffnen Sie dann das Gehäuse und inspizieren Sie den CPU-Kühlkörper (Central Processing Unit), die Speichermodule und alle Lüfterblätter, Lüfterflügel und Luftkanäle. Nehmen Sie den Server zum Reinigen unbedingt aus dem Rack. Entfernen Sie Staub oder Ablagerungen mit sauberer, trockener Druckluft an einem geeigneten, gegen statische Ladung gesicherten Arbeitsplatz.

Staubentfernung ist eine vergleichsweise dröge Aufgabe, aber immer noch notwendig. Staub ist ein thermischer Isolator, weshalb es umso wichtiger ist, ihn loszuwerden – zumal jetzt auch alternative Kühlungskonzepte und ASHRAE-Empfehlungen die Betriebstemperaturen im Rechenzentrum erhöht haben. Staub und andere Behinderungen des Luftstroms führen dazu, dass der Server mehr Energie verbraucht. Sogar Ausfälle von Komponenten können davon verursacht werden. All das können Sie durch ordentliche Wartung verhindern.

4. Checken Sie die lokalen Festplatten

Server sind auf interne Festplatten zum Booten sowie Starten und Speichern von Workloads sowie Benutzerdaten angewiesen. Probleme mit Festplattenmedien beeinträchtigen die Leistung und Stabilität von Anwendungen und führen zu möglichen Datenträgerfehlern. Verwenden Sie Tools wie das Dienstprogramm CheckDisk, um die Integrität Ihrer Festplatten zu überprüfen und fehlerhafte Sektoren auf den Festplatten wiederherzustellen.

Magnetische Datenträger sind nicht perfekt. Häufige Probleme sind fehlerhafte Sektoren und Fragmentierung. RAID (Redundant Array of Independent Disks) ist ein wichtiger Schritt zur Erhaltung der Datenintegrität nach Speicherfehlern. Kleinere 1-HE-Rack-Server bieten jedoch nicht genügend physischen Speicherplatz, um ein Array von Festplatten bereitzustellen.

Die Fragmentierung der Festplatten wird weiterhin bestehen, solange NTFS (New Technology File System) und FAT (File Allocation Table) stets den als erstes verfügbaren Cluster als Speicherplatz benutzen. Die Fragmentierung kann die Festplatte eines Servers verlangsamen und zu Fehlern führen. Das Dienstprogramm Optimize-Volume von Windows Server 2016 defragmentiert und trimmt die Festplatte und führt ein Storage Tier Processing durch.

5. Überprüfen Sie Protokolldaten und Ereignisse

Server zeichnen eine Vielzahl von Vorfällen in Ereignisprotokollen auf. Keine Checkliste für die Serverwartung ist vollständig, ohne eine sorgfältige Überprüfung der System-, Malware- und anderer Ereignisprotokolle. Natürlich gilt immer: kritische Systemereignisse sollten die Aufmerksamkeit von Administratoren und Technikern sofort auf sich ziehen. Aber unzählige kleinere Probleme können auf ein chronisches Problem im Hintergrund hinweisen.

Während der Überprüfung der Protokolle sollten Administratoren die Reporting-Einstellungen überprüfen und feststellen, ob die richtigen Warnungen und Empfänger für diese eingerichtet sind. Wenn zum Beispiel ein Techniker die Servergruppe verlässt, müssen Admins das Berichtssystem des Servers aktualisieren.

Überprüfen Sie auch die Kontaktmethoden. Es kann fatale Folgen haben, wenn ein kritischer Fehler, der außerhalb der Geschäftszeiten auftritt, an die E-Mail-Adresse eines Technikers gemeldet wird.

Wenn die Protokollprüfung chronische oder wiederkehrende Probleme anzeigt, kann eine vorsorgliche Untersuchung das Problem lösen, bevor es eskaliert. Meldet das Serverprotokoll behebbare Fehler in einem Speichermodul, löst es keine kritischen Alarme aus. Kommt es aber wiederholt vor, dass Probleme mit dem Modul auftreten, sollten Admins eine detailliertere Analyse anfertigen, um potenzielle bevorstehende Ausfälle zu erkennen.

Sind die Probleme nicht schwerwiegend genug, um einen Server herunterzufahren, können Administratoren den Server wieder in Betrieb nehmen, bis Ersatzhardware eingetroffen ist.

6. Testen Sie Patches und Updates

Die Softwarekomponenten des Servers – BIOS, Betriebssystem, Hypervisor, Treiber und Anwendungen – müssen zusammenarbeiten. Leider klappt das selten ohne Probleme. Daher werden Teile dieses Puzzles laufend gepatcht oder aktualisiert, um Fehler zu beheben, die Sicherheit zu verbessern, die Interoperabilität zu optimieren und die Leistung zu verbessern.

Keine Produktionssoftware sollte automatisch aktualisiert werden. Administratoren sollten hier in jedem Fall die Kontrolle behalten. Nur sie können feststellen, ob ein Patch oder ein Upgrade erforderlich ist, und die Änderung zuvor gründlich auf Vor- und Nachteile sowie mögliche Fehler testen.

Softwareentwickler können nicht jede mögliche Kombination aus Hardware und Software testen. Wählen Sie daher Patches und Updates mit Bedacht aus, um Leistungsprobleme oder Unterbrechungen des Arbeitsablaufs zu vermeiden. Ein Patch für ein Monitoring-Programm kann beispielsweise Probleme bei einer wichtigen Anwendung verursachen, weil es nun mehr Bandbreite benötigt als vor dem Update.

Die Umstellung auf DevOps mit kleineren und häufigeren Updates erhöht die Wahrscheinlichkeit für das Auftreten von Problemen. Um dies zu verhindern, müssen die Verantwortlichen jeden Patch und jedes Update vor der Bereitstellung in einer Sandbox oder einer Testumgebung prüfen. Sie haben damit immer die Möglichkeit, die ursprüngliche Softwarekonfiguration beizubehalten.

7. Notieren Sie alle Systemänderungen

Während eines Wartungsfensters verändert sich eine ganze Menge in einem Server. Unter anderem können Änderungen an der Hardware-, Software- oder Systemkonfiguration vorgenommen werden. Wenn Administratoren die Checkliste für die Serverwartung abarbeiten, ist es wichtig, dass sie jeden neuen Systemstatus überprüfen und dokumentieren. Wenn sie zum Beispiel einen Netzwerkadapter ändern, DIMMs hinzufügen oder ersetzen oder das Betriebssystem aktualisieren, ändert sich die Systemkonfiguration.

Unternehmen, die von Tools für das Systemkonfigurationsmanagement (Configuration Management, CM) abhängig sind, müssen die Informationen dort ergänzen und erneuern. Diese Änderungen müssen in die Datenbank für das Konfigurationsmanagement eingetragen werden, bevor das System wieder in Betrieb genommen werden darf. Admins sollten jede erzwungene oder gewünschte Konfigurationeinstellung aktualisieren, um die Änderungen zu ermöglichen.

Sie müssen auch die Sicherheitseinstellungen des Systems überprüfen. Dazu gehören Firewall-Einstellungen, die Version des Antimalware-Programms sowie dessen Einstellungen für die Frequenz von Prüfungen und die Erkennung von Eindringlingen. Diese Maßnahme stellt sicher, dass durch die Änderungen der Systemsoftware nicht versehentlich Angriffsflächen geöffnet wurden, die in der vorherigen Konfiguration geschlossen waren.

Schließlich darf nicht vergessen werden, noch alle System-Backups oder Disaster-Recovery-Inhalte (DR) zu aktualisieren, sobald der Server wieder online ist. Die Backup- und DR-Frequenz des Servers muss unverändert bleiben – es sei denn, die Einstellungen müssen speziell an den neuen Anwendungsfall des Servers angepasst werden.

Nächste Schritte

Upgrades im Rechenzentrum: Behutsames Vorgehen verhindert Fehler.

Disaster-Recovery durch CMDB-Datenintegrität sicher gewährleisten

Überblick: mit diesen Fünf Technologien bleibt Ihr Rechenzentrum kühl.