Kesu - Fotolia
So unterscheiden sich Datendeduplizierung und -kompression
Datenreduktionstechnologien wie Komprimierung und Deduplizierung spielen eine wichtige Rolle dabei, die Backup-Prozesse zu verbessern und Speicherkosten zu senken.
Backup-Administratoren sind auf effiziente Prozesse und eine wirtschaftliche Nutzung des Speicherplatzes angewiesen. Komprimierung und Deduplizierung sind zwei ähnliche, aber unterschiedliche Techniken, die dabei helfen können.
Das Sichern von Dateien ist von entscheidender Bedeutung, und das Erstellen von Kopien der Daten ist ein wichtiger Teil davon. Dies kann dazu führen, dass Backup-Prozesse das Netzwerk überlasten oder den Zugriff auf Ressourcen verlangsamen. Angesichts der anhaltenden Fokussierung auf Verfügbarkeitsmetriken wie Recovery Time Objectives (RTO) sind leistungsstarke Datenmanagementfunktionen unerlässlich, um zu verhindern, dass überflüssige Kopien von Daten die Leistung beeinträchtigen.
Es gibt zwei primäre Ansätze zur Datenreduzierung, die Administratoren verwenden: Datenkomprimierung und Deduplizierung. Komprimierung und Deduplizierung werden auch bei der Speicherung auf Dateiservern und im allgemeinen Datenmanagement eingesetzt und können zu effizienteren Backup-Prozessen beitragen. Während die Komprimierung die Größe von Dateien durch Eliminierung redundanter Informationen reduziert, ersetzt die Deduplizierung diese Informationen durch Verweise auf eine einzige Quelle.
In diesem Artikel erfahren Sie mehr über die Funktionsweise von Komprimierung und Deduplizierung, ihre Vor- und Nachteile sowie Anwendungsfälle für beide Methoden.
Was ist Datenkomprimierung?
Bei der Datenkomprimierung (auch Kompression genannt) werden Daten codiert, um ihre Größe zu reduzieren. Der allgemeine Ansatz besteht darin, redundante oder nicht benötigte Informationen zu entfernen, um die Dateigröße zu verringern. Das Ergebnis ist eine effizientere Nutzung der Speicherkapazität und der Netzwerkbandbreite.
Es gibt zwei Arten der Komprimierung: verlustbehaftete und verlustfreie. Bei der verlustbehafteten Komprimierung werden Daten dauerhaft entfernt, was zu einem möglichen Qualitätsverlust, aber einer höheren Komprimierungsrate führt. Bei der verlustfreien Komprimierung werden keine Daten entfernt, sodass eine vollständige Datenwiederherstellung möglich ist, jedoch ohne eine so gute Komprimierungsrate wie bei der verlustbehafteten Komprimierung.
Die Datenkomprimierung bietet Administratoren mehrere Vorteile, darunter die folgenden:
- Einsparung von Speicherplatz, Senkung der Kosten.
- Beschleunigung der Netzwerk-Dateiübertragungen.
- Verbesserung der Leistung von Sicherungs- und Wiederherstellungsvorgängen.
- Optimierung der Datenverwaltung.
Die Datenkomprimierung bietet zwar Leistungsverbesserungen und hohe Platzersparnisse, hat aber auch ihre Nachteile. Zum einen ist die Komprimierung eine CPU-intensive Aktivität, was bedeutet, dass sie während des Prozesses zu einer Verlangsamung der Systeme führen kann. Die Komprimierung selbst führt nicht zu Datenbeschädigungen, da sie ein deterministischer Prozess ist. Korruption kann aber durch fehlerhafte Hardware oder Software im Umfeld (zum Beispiel defekte Speichermedien oder RAM-Fehler) auftreten. Außerdem kann es schwierig sein, die mit der Komprimierung verbundenen Einsparungen vorherzusagen.
Was ist Datendeduplizierung?
Die Datendeduplizierung reduziert oder entfernt ebenfalls redundante Informationen, jedoch auf andere Weise als die Komprimierung. Sie ersetzt redundante Informationen durch Verweise (Pointers) auf eine einzige Datenquelle, anstatt mehrere Kopien zu verwenden. Wie die Komprimierung bietet auch die Deduplizierung Vorteile wie Speicherplatzersparnis und erhöhte Backup-Effizienz.
Administratoren konfigurieren die Deduplizierung so, dass sie entweder an der Quelle oder am Ziel stattfindet. Bei der Quelldeduplizierung erfolgt der Deduplizierungsprozess, bevor die Daten an das Speicher-Repository gesendet werden. Bei der Zieldeduplizierung findet der Prozess am Speicherziel statt.
Ein Administrator könnte beispielsweise die Zieldeduplizierung für in der Cloud gespeicherte Backup-Jobs konfigurieren, wodurch die Belastung des Prozessors auf Cloud-basierte Ressourcen statt auf lokale Server verlagert wird und die Auswirkungen für die Benutzer nicht spürbar sind.
Je nach Dateityp kann die Deduplizierung erhebliche Auswirkungen auf die Speicherinfrastruktur haben. Als Microsoft die Deduplizierung erstmals in Windows Server integrierte, wurden Platzersparnisse von 30 Prozent bis 95 Prozent für Dateien wie Benutzerdokumente und Virtualisierungsbibliotheken gemeldet.
Neben Einsparungen bei den Speicherkosten bietet die Deduplizierung folgende Vorteile:
- Reduzierung der Datenmenge für Backup-Jobs, wodurch diese weniger Zeit in Anspruch nehmen.
- Reduzierung des für Backup-Jobs erforderlichen Speicherplatzes.
- Reduzierung der Netzwerknutzung aufgrund kleinerer Backups.
Wie die Datenkomprimierung birgt jedoch auch die Deduplizierung Herausforderungen. Sie ist CPU-intensiv, deduplizierte Daten sind nicht immun gegen Beschädigungen, und trotz Schätzungen kann es schwierig sein, die damit verbundenen Kosteneinsparungen vorherzusagen. Darüber hinaus ist die Verwaltung der Deduplizierung eine komplexe Aufgabe, und die Methode hat bei einigen Dateiformaten nur eine begrenzte Wirksamkeit.
Anwendungsfälle für Komprimierung und Deduplizierung im Vergleich
Wenn es um Komprimierung und Deduplizierung geht, müssen Backup-Administratoren sich nicht für eine der beiden Optionen entscheiden. Je nach Art der zu reduzierenden Dateien können Unternehmen für einige Dateien die Komprimierung und für andere die Deduplizierung verwenden. Die Kombination beider Techniken ist möglich und wird in vielen Backup-Lösungen auch so umgesetzt – typischerweise erst Deduplizierung, dann Komprimierung. Dadurch lassen sich die Vorteile beider Methoden ausschöpfen. Allerdings kann dies die CPU-Last erhöhen und den Durchsatz mindern, wenn keine geeignete Hardwarebeschleunigung oder Optimierung eingesetzt wird.
Von den beiden Optionen sind die meisten Menschen bereits mit Datenkomprimierung in irgendeiner Form vertraut, sei es durch das Versenden von E-Mails oder das Herunterladen von ZIP-Dateien. Deduplizierung ist weniger bekannt und findet oft im Hintergrund statt. Administratoren können beispielsweise die Deduplizierung so konfigurieren, dass sie außerhalb der Spitzenzeiten ausgeführt wird, ohne dass die Endbenutzer dies bemerken.
Komprimierung eignet sich am besten für folgende Zwecke:
- Einzelne Dateien statt vollständiger Partitionen oder Volumes.
- Dateien wie Bilder, Multimedia-Dateien und Datenbanken.
- Effiziente Netzwerkübertragungen, zum Beispiel Downloads großer Dateien.
Deduplizierung eignet sich für folgende Zwecke:
- Speicher mit vielen redundanten Informationen, beispielsweise Backup- oder Repositorys für Images virtueller Maschinen.
- Cloud-Speicher und große Dateiserver.
- Optimierung von Backup-Prozessen und Senkung der Kosten.
Auf einen Blick: Datendeduplizierung vs. Datenkomprimierung
Komprimierung und Deduplizierung sind unterschiedliche, aber komplementäre Verfahren zur Datenreduzierung. Während Komprimierung die Dateigröße durch Kodierung redundanter Muster verringert, entfernt Deduplizierung doppelte Datenblöcke oder Dateien und ersetzt sie durch Referenzen. Beide Methoden sparen Speicherplatz, verbessern Backup-Prozesse und können Netzwerkbelastungen reduzieren. Ihre Wirksamkeit hängt jedoch stark von den jeweiligen Datenarten und der eingesetzten Infrastruktur ab. Durch eine gezielte Kombination beider Verfahren lässt sich eine besonders hohe Effizienz erzielen – vorausgesetzt, die Systeme sind entsprechend optimiert und leistungsfähig.