
bdavid32 - stock.adobe.com
Von MTTF bis Latenz: Worauf es bei SSDs wirklich ankommt
Wer bei SSDs nur auf den Preis schaut, zahlt am Ende oft drauf. Zuverlässigkeit, Lebensdauer und weitere passende Spezifikationen entscheiden über die echten Gesamtkosten.
Bei der Anschaffung von SSDs für Rechenzentren sollte nicht allein der Blick auf den Preis entscheiden. Wichtiger ist es, hochwertige und zum Anwendungsfall passende SSDs auszuwählen, da diese die geringeren Gesamtkosten haben. Woran liegt das, und auf welche Spezifikationen und Eigenschaften müssen Unternehmen beim Kauf achten?
Nicht selten schauen IT-Entscheider bei der Anschaffung von SSDs vor allem auf den Preis – schließlich können sie durch den Griff zu günstigeren Modellen einiges sparen, gerade wenn es um große Stückzahlen für die Ausstattung von Rechenzentren und Serverräumen geht. Doch diese Sichtweise hat Schwächen, da der Kaufpreis über die Lebenszeit der Laufwerke betrachtet nur einen Teil der Gesamtkosten ausmacht. Hinzu kommen unter anderem die Kosten für den Stromverbrauch, die Kühlung, die Wartung sowie den Austausch defekter SSDs und die Ausfallzeiten.
Vor allem die beiden letztgenannten Punkte können einen erheblichen Kostenfaktor darstellen, falls überdurchschnittlich viele Laufwerke ausfallen – insbesondere, wenn sich die betroffenen IT-Systeme nicht direkt vor Ort befinden und längere Anfahrten etwa zu Kunden oder in ein Colocation-Rechenzentrum notwendig sind. Diese Fahrten erhöhen den Aufwand für den SSD-Austausch erheblich und verlängern auch die Downtimes, in denen geschäftskritische Anwendungen womöglich nicht oder nur eingeschränkt verfügbar sind.
MTTF – ein Maß für Zuverlässigkeit
Eine wichtige Kennzahl für die Zuverlässigkeit von SSDs ist die Mean Time To Failure (MTTF). Dabei handelt es sich um einen statistischen Wert, der zwar für eine einzelne SSD relativ wenig Aussagekraft besitzt, aber bei einer größeren Anzahl von SSDs einzuschätzen hilft, wie häufig es zu Ausfällen kommen kann. Bei einer MTTF von 2 Millionen Stunden, wie sie die meisten Rechenzentrums-SSDs aufweisen, ist bei 1.000 Laufwerken ein Ausfall alle 2.000 Stunden zu erwarten, sprich: etwa alle 83 Tage. Dass einige Hersteller die MTTF von Rechenzentrums-SSDs inzwischen auf das Niveau von Enterprise-SSDs mit 2,5 Millionen Stunden angehoben haben, macht somit einen relevanten Unterschied: Bei 1.000 Laufwerken ist ein Ausfall nur noch alle 2.500 Stunden beziehungsweise 104 Tage wahrscheinlich. Es müssen also deutlich seltener Wartungstechniker ausrücken, um defekte SSDs auszutauschen.
Aus der MTTF lässt sich die Annualized Failure Rate (AFR) errechnen – die Formel lautet:
- AFR = jährliche Betriebszeit / MTTF x 100.
Als Prozentwert ist sie etwas zugänglicher und zeigt an, welcher Anteil des eigenen SSD-Bestands voraussichtlich pro Jahr ausfallen wird. Eine MTTF von 2,5 Millionen Stunden entspricht einer AFR von 0,35 Prozent. Zum Vergleich: Liegt die MTTF bei 2 Millionen Stunden sind es bereits 0,44 Prozent.

Client-SSDs sind günstiger als Rechenzentrums- und Enterprise-SSDs, haben häufig aber nur eine MTTF von 1,5 Millionen Stunden, was bei 1.000 Laufwerken statistisch gesehen einem Ausfall alle 1.500 Stunden beziehungsweise 62 Tage entspricht – zumindest theoretisch. In der Praxis dürfte es erheblich häufiger zu Ausfällen kommen, da Client-SSDs den hohen Schreiblasten in Servern und Storage-Systemen nicht gewachsen sind. Ihre Speicherzellen nutzen sich schneller ab als geplant und lassen sich nicht in gleichem Maße wie bei Rechenzentrums- und Enterprise-SSDs durch überprovisionierte Zellen ersetzen. Ohnehin sind sie nicht für den 24/7-Betrieb ausgelegt und können auch die hohen Performance-Anforderungen der meisten Enterprise-Anwendungen nicht erfüllen – in Servern und Storage-Systemen haben sie daher nichts zu suchen, auch wenn ihr Preis verlockend erscheinen mag.
Klimatisierung ist Pflicht
Wie Client-SSDs erreichen auch Rechenzentrums- und Enterprise-SSDs die angegebene MTTF nur, wenn sie innerhalb der vom Hersteller spezifizierten Einsatzbedingungen genutzt werden. Das betrifft in erster Linie die Betriebstemperatur und die sogenannte Endurance – angegeben in Drive Writes Per Day (DWPD). Werden die vorgegebenen Werte überschritten, steigt die Ausfallwahrscheinlichkeit der Laufwerke bereits während der Garantiezeit an.
Rechenzentrums- und Enterprise-SSDs sind üblicherweise für Betriebstemperaturen bis 70 oder sogar 75 Grad Celsius ausgelegt. Das hört sich nach viel an, doch da Prozessoren, Speichermedien und andere IT-Komponenten reichlich Wärme produzieren, können sich Server- und Storage-Systeme unter Last stark aufheizen. Die Unterbringung in klimatisierten Räumlichkeiten ist daher Pflicht – nicht zuletzt, weil auch in den hiesigen Breitengraden die Temperaturen immer häufiger über 35 Grad Celsius steigen, was die Ableitung der Wärme in normalen Büroräumen erschwert. Unternehmen sollten allerdings auch darauf achten, dass die kühle Luft die Systeme und SSDs optimal anströmen kann, also nicht von anderen Systemen oder Komponenten blockiert wird oder sich mit der warmen Abluft vermischt.
![]()
„ Um höhere Ausfallraten durch Überlastung zu verhindern, ist es wichtig, zum Anwendungsfall passende SSDs auszuwählen. Für einen File Server, Analytics-Anwendungen oder Medien-Streaming, bei denen meist lesend auf Daten zugegriffen wird, reichen SSDs mit 1 DWPD in der Regel aus.“
Frederik Haak, KIOXIA
Mit ihren extrem optimierten Kühlkonzepten holen die Betreiber großer Rechenzentren erfahrungsgemäß das Maximum an Zuverlässigkeit aus ihren SSDs heraus und erreichen mit hochwertigen Modellen eine MTTF deutlich über 2,5 Millionen Stunden. Offiziell kommuniziert werden die Werte zwar nicht, aber wer einen guten Draht zu seinem SSD-Anbieter hat, kann sie im vertraulichen Gespräch durchaus erfragen.
Vorsicht bei hohen Schreiblasten
Um höhere Ausfallraten durch Überlastung zu verhindern, ist es zudem wichtig, zum Anwendungsfall passende SSDs auszuwählen. Für einen File Server, Analytics-Anwendungen oder Medien-Streaming, bei denen überwiegend lesend auf Daten zugegriffen wird, reichen SSDs mit 1 DWPD in der Regel aus. Sie können über die Garantiezeit von fünf Jahren einmal pro Tag mit ihrer vollen Kapazität beschrieben werden. Geht es hingegen darum, große Datenmengen aufzufangen – etwa aus dem Internet of Things (IoT) oder bei der Online-Transaktionsverarbeitung (OLTP) –, werden SSDs mit 3 oder sogar 10 DWPD benötigt.
Die meisten Rechenzentrums- und Enterprise-SSDs sind mit TLC NAND bestückt, der 3 Bit pro Zelle speichert. Inzwischen kommen aber auch zunehmend Modelle mit QLC-NAND auf den Markt, der mit 4 Bit pro Zelle eine höhere Speicherdichte ermöglicht, sodass der Preis pro Gigabyte unter dem von SSDs mit TLC NAND liegt. Durch die Speicherung einer größeren Anzahl von Bits pro Zelle sind die Zellen allerdings höheren Schreiblasten ausgesetzt und altern schneller. SSDs mit QLC NAND haben daher eine geringere Endurance – ihr DWPD-Wert liegt üblicherweise unter 1. So kostengünstig sie auch sein mögen, eignen sie sich doch nur für Anwendungen, die vergleichsweise wenige Schreibzugriffe verursachen, etwa die Datenbereitstellung für das Training von KI-Modellen. Bei Anwendungen mit höheren Schreiblasten kann sich die Entscheidung für die vermeintlich günstigere Technologie langfristig als Kostentreiber herausstellen, wenn die Ausfallraten ansteigen.
In Einzelfällen kann selbst bei leseintensiven Anwendungen der Griff zu SSDs mit TLC NAND lohnen. Denn zum einen hat dieser eine geringere Leistungsaufnahme und liefert eine bessere Performance pro Watt. Und zum anderen werden aufgrund der niedrigeren Kapazitäten der SSDs größere Stückzahlen gebraucht, sodass sich oft höhere Rabatte aushandeln lassen und sich der Preis von TLC zumindest ein Stück weit an QLC annähert. Ein genaues Durchrechnen der Gesamtkosten ist daher auf jeden Fall sinnvoller als eine Entscheidung allein nach den Anschaffungskosten.
Hohe Quality of Service sorgt für zufriedene Anwender
Ein Qualitätsmerkmal von SSDs ist zudem die Latenzstabilität, wenngleich diese keinen direkten Einfluss auf die Kosten hat. Sie trägt allerdings zur Zufriedenheit der Anwender bei – und kann damit indirekt Kosten verursachen, wenn Kunden wegen schwankender Latenz und einer somit nicht zuverlässig vorhersagbaren Anwendungs-Performance abwandern. Eine hohe Frequenzstabilität bedeutet nämlich nichts anderes, als dass SSDs ihre spezifizierte Latenz dauerhaft erreichen. Gerade für Anwendungen, die Echtzeit-Anforderungen haben, etwa in der Produktionssteuerung und bei Finanztransaktionen, und in hochvirtualisierten Umgebungen mit vielen geteilten Ressourcen ist das essenziell.

Üblicherweise treten Latenzspitzen auf, während eine SSD mit dem sogenannten Housekeeping beschäftigt ist. Hierzu zählen unter anderem das Wear Leveling (die gleichmäßige Verteilung der Schreiblasten über alle Speicherzellen, um eine gleichmäßige Abnutzung zu erreichen) und die Garbage Collection (das Freiräumen von Speicherbereichen, damit sie endgültig gelöscht werden können). Besonders effiziente Algorithmen für diese Tätigkeiten und leistungsstarke Controller tragen zu einer stabil niedrigen Latenz bei. Da in den Datenblättern von SSDs jedoch nur die Latenz angegeben wird, müssen Unternehmen die Latenzstabilität selbst ermitteln. Der Evaluierungsaufwand lohnt sich jedoch, da die Unterschiede zwischen hochwertigen SSDs wie der KIOXIA CD8 und billigen Modellen eklatant sein können.
Letztlich rentiert sich gerade für Unternehmen mit größeren IT-Installationen und Systemhäuser, die bei ihren Kunden fast alles bis auf den Austausch von Hardware-Komponenten remote erledigen können, ein genauer Blick auf die Gesamtkosten von SSDs. Langlebige Modelle, die eine hohe Frequenzstabilität bieten und optimal zum Anwendungsfall passen, reduzieren den Austauschaufwand und erhöhen die Anwender- beziehungsweise Kundenzufriedenheit – und wiegen damit die höheren Anschaffungskosten schnell wieder auf.
Über den Autor:
Frederik Haak ist General Manager der SSD Business Unit von KIOXIA Europe
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.