JRB - stock.adobe.com

Tipp

So optimieren Sie das Backup mit Deduplizierung

Backups mit Deduplizierung können den aktiven Speicherplatzbedarf reduzieren, die Sicherungsfenster minimieren und die Gesamteffizienz einer Speicherinfrastruktur steigern.

von

Damon Garn, Cogspinner Coaction

Zuletzt aktualisiert: 05 Juni 2025

Zahlreiche Technologien helfen dabei, den Aufwand für Datensicherung und -wiederherstellung zu reduzieren. Eine zentrale Rolle spielt dabei die Datendeduplizierung.

Backup-Administratoren stehen vor der Herausforderung, kritische Geschäftsdaten zu schützen und gleichzeitig Speicher- sowie Netzwerkkosten effizient zu verwalten. Redundanz ist ein wichtiger Bestandteil der Datensicherung, aber zu viel Redundanz kann die Speicherkosten erhöhen und die Datenverwaltung verkomplizieren. Hier kommt die Backup-Deduplizierung ins Spiel.

Bei der Deduplizierung wird ein Hashwert der analysierten Daten generiert. Die Hashwerte werden dann mit anderen Ergebnissen verglichen, um Duplikate zu ermitteln. Alle Kopien der doppelten Informationen werden bis auf eine entfernt und durch Verweise auf die einzige definitive Datenquelle ersetzt. Bei der Backup-Deduplizierung werden doppelte Daten in Backups durch Verweise auf die Quelldatei ersetzt.

Das Ergebnis kann eine überraschend große Menge an zurückgewonnenem Speicherplatz sein. Wie viel Speicherplatz genau, hängt von der Deduplizierungstechnik und den Originaldaten ab. Die eingesparte Speicherplatzmenge hängt auch stark davon ab, welche Art von Informationen die Benutzer generieren.

In diesem Artikel werden die Datendeduplizierung und die Vorteile für Backup-Administratoren untersucht. Es werden verschiedene Arten der Deduplizierung, Vor- und Nachteile sowie spezifische Techniken erläutert, damit Sie entscheiden können, wie sich die Deduplizierung in Ihre Datensicherungsstruktur einfügt.

Arten der Datendeduplizierung

Es stehen mehrere Deduplizierungsoptionen zur Verfügung, sodass Backup-Administratoren selbst entscheiden können, wie der Prozess ablaufen soll. Bei der Festlegung einer Backup-Deduplizierungsstrategie können Administratoren bestimmen, wie doppelte Daten analysiert und wann sie eliminiert werden sowie an welcher Stelle des Backup-Prozesses die Deduplizierung stattfindet.

Deduplizierung auf Datei- oder Blockebene

Deduplizierungstechniken umfassen zwei Ebenen der Informationsanalyse, die jeweils eigene Vorteile bieten: die Datei- und die Blockebene.

Bei der Deduplizierung auf Dateiebene werden vollständige Dateien auf doppelte Informationen überprüft. Bei der Deduplizierung auf Blockebene werden die Daten in Blöcke unterteilt und jeder Block wird mit den anderen Blöcken auf doppelte Informationen überprüft. In beiden Fällen werden doppelte Informationen durch Verweise auf eine einzige definitive Quelle ersetzt.

Inline- vs. Postprocessing-Deduplizierung

Die Deduplizierung kann inline – also in Echtzeit – oder nach dem Speichern der Datei durch den Benutzer erfolgen. Die Deduplizierung nach dem Speichern der Datei durch den Benutzer wird als Postprocessing bezeichnet.

Die Inline-Deduplizierung kann ressourcenintensiver sein als die Nachbearbeitung und den Backup-Prozess verlangsamen. Das Postprocessing erfordert jedoch temporären Speicherplatz, während dies bei der Inline-Deduplizierung nicht der Fall ist. Berücksichtigen Sie die Speicher- und Verarbeitungsanforderungen Ihres Unternehmens, um den besten Zeitpunkt für die Deduplizierung zu ermitteln.

Abbildung 1: Der Unterschied zwischen der Inline- und Postprocessing-Deduplizierung in schematischer Darstellung.

Quellenbasierte vs. zielbasierte Deduplizierung

Speicher- und Backup-Administratoren können auch entscheiden, wann die Deduplizierung in Bezug auf den Backup-Prozess erfolgen soll. Die Optionen sind quellbasierte Deduplizierung oder zielbasierte Deduplizierung.

Bei der quellbasierten Deduplizierung werden die Informationen vor Beginn des Backup-Vorgangs verarbeitet, wodurch Bandbreiten- und Speicheranforderungen reduziert werden. Dies hat auch den Vorteil, dass der allgemeine Speicherbedarf für die Daten sinkt.

Bei der zielbasierten Deduplizierung werden die Informationen am Backup-Ziel verarbeitet. Dies ist ein spezialisierterer und ressourcenintensiverer Ansatz, der sich für große Datensätze eignet.

Vorteile der Deduplizierung für Backups

Viele Speicheradministratoren nutzen bereits die Datendeduplizierung, sodass Backup-Administratoren möglicherweise von dieser Technologie profitieren, ohne sich dessen bewusst zu sein. Zu den spezifischen Vorteilen der Datendeduplizierung für Backup-Administratoren gehören die folgenden:

Effizienz von Backup-Aufträgen.
Optimierung des Speicherplatzes.
Optimierung der Netzwerkbandbreite.
Erhöhte Effizienz der Datenverwaltung.

Die daraus resultierenden Kosteneinsparungen ermöglichen es Unternehmen, wichtige finanzielle Ressourcen anderweitig einzusetzen. Die Deduplizierung kann Backup-Administratoren auch dabei helfen, die längere Aufbewahrung von Daten zu rechtfertigen und gleichzeitig den Speicherplatzbedarf auf physischen Medien zu reduzieren.

Nachteile der Datendeduplizierung

Keine Technologie ist perfekt, und die Datendeduplizierung bildet da keine Ausnahme. Wenn Sie die Deduplizierung in Ihrer Umgebung implementieren, müssen Sie bestimmte Probleme berücksichtigen. Zu den potenziellen Nachteilen gehören:

Verlangsamung der Systemleistung, insbesondere der CPU. Die Deduplizierung ist prozessorintensiv.
Risiko von Datenverlusten aufgrund von Hash-Kollisionen oder anderen Fehlern.
Erhöhte Speicherfragmentierung aufgrund der Art und Weise, wie Blöcke zu leicht unterschiedlichen Zeitpunkten verarbeitet und auf die Festplatte geschrieben werden, wodurch sie möglicherweise auf mehrere Speichergeräte verteilt werden.
Risiken aufgrund von Blockabhängigkeiten im Zusammenhang mit Datenkorruption. Wenn ein Quellblock beschädigt ist, kann dies weitreichende Auswirkungen auf viele Dateien haben.
Unterschiedliche Effizienzgrade je nach Datentyp und -struktur.

Eine langsamere Systemleistung ist ein besonderes Problem. Wenn ein schneller Datenabruf unerlässlich ist, ist die Deduplizierung möglicherweise nicht die beste Wahl.

Anwendungsfälle für Deduplizierung

Anwendungsfälle für die Deduplizierung decken nahezu alle Dateitypen ab. Allerdings profitiert jeder Dateityp unterschiedlich von der Deduplizierung. Denken Sie beispielsweise an Dateispeicher, die wahrscheinlich identische Informationen enthalten. Ein gutes Beispiel sind Installationsquelldateien, VM-Images oder andere Situationen, in denen zahlreiche Kopien derselben Dateien vorhanden sind. Die folgenden Datei- und Datentypen profitieren erheblich von der Datendeduplizierung.

Backup-Dateien

Häufige Sicherungsaufträge enthalten oft nur geringfügige Änderungen mit vielen doppelten Informationen.

Dateien virtueller Maschinen

VM-Disk-Images, ISO-Images und andere unterstützende Dateien enthalten identische Systemdateiinformationen.

E-Mail-Anhänge

Viele Unternehmen senden Anhänge an ganze E-Mail-Gruppen, wodurch derselbe Anhang hunderte Male dupliziert wird.

Software-Binärdateien

Installationsprogramme, CAB-Dateien und andere Software-Quelldateien können innerhalb eines Unternehmens dupliziert sein.

Benutzerdokumente

Office-Dateien, PDFs, Bilder und andere Endbenutzerdaten werden häufig in Home-Verzeichnissen, Abteilungsordnern und verschiedenen gemeinsamen Speicherbereichen dupliziert.

Code-Repositorys

Entwickler speichern möglicherweise wiederholte Codeversionen, da sie Git-Commits zur Versionsverwaltung verwenden.

Deduplizierungsprogramme für Windows und Linux

Je nach Betriebssystem einer Organisation variieren die integrierten Deduplizierungsprogramme.

Windows Server enthält ein integriertes Deduplizierungsprogramm für NTFS. Es bietet mehrere nützliche Konfigurationsoptionen mit PowerShell und grafischen Tools:

Zeitplanung (Scheduling). Planen Sie Deduplizierungsaktionen für Zeiten außerhalb der Spitzenauslastung mit PowerShell oder dem Taskplaner, um die Auswirkungen auf die Serverleistung während der Spitzenzeiten zu minimieren.
Ausschlüsse: Schließen Sie bestimmte Dateitypen oder Speicherorte vom Deduplizierungsprozess aus, um Risiken für wichtige Dateien zu vermeiden.
Altersschwellen: Legen Sie Altersschwellen für Dateien fest, die für die Deduplizierung in Frage kommen. Der Standardwert ist Dateien, die älter als drei Tage sind.
Berichterstellung und Überwachung: Aktivieren Sie die Überwachung des Status von Deduplizierungsaktionen mit PowerShell-Cmdlets wie Get-DedupStatus und Get-DedupJob.

Linux-Benutzer haben folgende Optionen für die Deduplizierung:

Btrfs. Dieses Dateisystem ermöglicht die Offline-Deduplizierung auf Blockbasis mit Dienstprogrammen wie duperemove und bedup.
Czkawka. Dieses Tool identifiziert doppelte Informationen und andere unnötige Daten, um Speicherplatz zurückzugewinnen.
Rdfind. Dieses Tool identifiziert doppelte Informationen anhand des Dateiinhalts, sodass Sie doppelte Dateien mit anderen Tools verwalten können. Es kann Duplikate löschen oder redundante Informationen ersetzen.