Definition

Datendeduplizierung

Die Datendeduplizierung - oft als intelligente Komprimierung oder Single-Instance-Speicherung bezeichnet - ist ein Prozess, der redundante Datenkopien eliminiert und den Speicher-Overhead reduziert. Datendeduplizierungstechniken stellen sicher, dass nur eine einzige Dateninstanz auf Speichermedien wie Festplatten, SSDs oder Bändern aufbewahrt wird. Redundante Datenblöcke werden durch einen Zeiger (Pointer) auf die eindeutige Datenkopie ersetzt. Auf diese Weise stimmt die Datendeduplizierung eng mit der inkrementellen Sicherung überein, bei der nur die Daten kopiert werden, die sich seit der letzten Sicherung geändert haben.

Fortsetzung des Inhalts unten

Beispielsweise könnte ein typisches E-Mail-System 100 Instanzen desselben Dateianhangs von 1 Megabyte (MB) enthalten. Wenn die E-Mail-Plattform gesichert oder archiviert wird, werden alle 100 Instanzen gespeichert, was 100 MB Speicherplatz erfordert. Bei der Datendeduplizierung wird nur eine Instanz des Anhangs gespeichert; jede nachfolgende Instanz wird auf die eine gespeicherte Kopie zurückreferenziert. In diesem Beispiel sinkt ein Speicherbedarf von 100 MB auf 1 MB.

Im Vergleich: Ziel- vs. Quell-Deduplizierung

Die Datendeduplizierung kann auf Quell- oder Zielebene (Source oder Target) erfolgen.

Beim quellenbasierten Deduplizieren werden redundante Blöcke vor der Übertragung von Daten an ein Sicherungsziel auf Client- oder Serverebene entfernt. Es ist keine zusätzliche Hardware erforderlich. Die Deduplizierung an der Quelle reduziert die Bandbreiten- und Speichernutzung.

Beim zielbasierten Deduplizieren werden die Backups über ein Netzwerk an plattenbasierte Hardware an einem entfernten Standort übertragen. Die Verwendung von Deduplizierungszielen erhöht die Kosten, obwohl sie im Allgemeinen einen Leistungsvorteil gegenüber der Quell-Deduplizierung bietet, insbesondere bei Datensätzen im Petabyte-Bereich.

Techniken zur Deduplizierung von Daten

Es gibt zwei Hauptmethoden zur Deduplizierung redundanter Daten: Inline- und Post-Processing-Deduplizierung. Welche Methode Sie verwenden, hängt von Ihrer Backup-Umgebung ab.

Bei der Inline-Deduplizierung werden Daten analysiert, wenn sie in ein Backup-System aufgenommen werden. Redundanzen werden entfernt, wenn die Daten in den Backup-Speicher geschrieben werden. Die Inline-Deduplizierung erfordert weniger Backup-Speicher, kann jedoch Engpässe verursachen. Storage-Array-Anbieter empfehlen, ihre Tools für die Inline-Datendeduplizierung für hochleistungsfähigen Primärspeicher auszuschalten.


Erfahren Sie hier alles Wichtige über
Deduplizierung von Eli dem
Computer Guy.

Post-Processing-Deduplizierung ist ein asynchroner Sicherungsprozess, der redundante Daten entfernt, nachdem sie in den Speicher geschrieben wurden. Doppelte Daten werden entfernt und durch einen Zeiger (Pointer) auf die erste Version des Blocks ersetzt. Der Post-Processing-Ansatz gibt Benutzern die Flexibilität, bestimmte Workloads zu deduplizieren und die jüngste Sicherung schnell wiederherzustellen. Der Kompromiss ist, dass eine größere Backup-Speicherkapazität als bei der Inline-Deduplizierung erforderlich ist.

Deduplizierung auf Dateiebene vs. Deduplizierung auf Blockebene

Die Datendeduplizierung erfolgt im Allgemeinen auf Datei- oder Blockebene. Die Dateideduplizierung eliminiert doppelte Dateien, ist aber kein effizientes Mittel der Deduplizierung.

Bei der Datendeduplizierung auf Dateiebene wird eine zu sichernde oder zu archivierende Datei mit bereits gespeicherten Kopien verglichen. Dies geschieht, indem ihre Attribute gegen einen Index geprüft werden. Wenn die Datei eindeutig ist, wird sie gespeichert und der Index aktualisiert; wenn nicht, wird nur ein Zeiger auf die vorhandene Datei gespeichert. Das Ergebnis ist, dass nur eine Instanz der Datei gespeichert wird, und nachfolgende Kopien werden durch einen Stub ersetzt, der auf die Originaldatei verweist.

Die Deduplizierung auf Blockebene sucht innerhalb einer Datei und speichert eindeutige Informationen jedes Blocks. Alle Blöcke werden in Blöcke mit der gleichen festen Länge aufgeteilt. Jeder Datenblock wird mit einem Hash-Algorithmus, wie MD5 oder SHA-1, verarbeitet.

Dieser Prozess erzeugt für jedes Datenstück eine eindeutige Nummer, die dann in einem Index gespeichert wird. Wenn eine Datei aktualisiert wird, werden nur die geänderten Daten gespeichert, auch wenn sich nur einige wenige Bytes des Dokuments oder der Präsentation geändert haben. Die Änderungen stellen keine völlig neue Datei dar. Diese Eigenschaft macht die Block-Deduplizierung wesentlich effizienter. Die Block-Deduplizierung benötigt jedoch mehr Rechenleistung und verwendet einen viel größeren Index, um die einzelnen Datenstücke zu verfolgen.


Adam Sell explains file-level and
block-level deduplication.

Die Deduplizierung mit variabler Länge ist eine Alternative, bei der ein Dateisystem in Blöcke unterschiedlicher Größe zerlegt wird, wodurch die Deduplizierungsprozesse bessere Datenreduzierungsraten als Blöcke mit fester Länge erzielen können. Die Nachteile sind, dass sie auch mehr Metadaten erzeugt und tendenziell langsamer ist.

Hash-Kollisionen sind ein potenzielles Problem bei der Deduplizierung. Wenn ein Datenstück eine Hash-Nummer erhält, wird diese Nummer dann mit dem Index anderer vorhandener Hash-Nummern verglichen. Wenn sich diese Hash-Nummer bereits im Index befindet, wird die Dateneinheit als Duplikat betrachtet und muss nicht erneut gespeichert werden. Andernfalls wird die neue Hash-Nummer dem Index hinzugefügt, und die neuen Daten werden gespeichert. In seltenen Fällen kann der Hash-Algorithmus dieselbe Hash-Nummer für zwei verschiedene Datenblöcke erzeugen. Wenn es zu einer Hash-Kollision kommt, speichert das System die neuen Daten nicht, weil es sieht, dass diese Hash-Nummer bereits im Index vorhanden ist. Dies wird als falsch positiv (false positive) bezeichnet und kann zu Datenverlust führen. Einige Anbieter kombinieren Hash-Algorithmen, um die Möglichkeit einer Hash-Kollision zu verringern. Einige Anbieter untersuchen auch Metadaten, um Daten zu identifizieren und Kollisionen zu verhindern.

Datendeduplizierung vs. Komprimierung vs. Thin Provisioning

Eine andere Technik, die häufig mit Deduplizierung in Verbindung gebracht wird, ist die Kompression. Die beiden Techniken funktionieren jedoch unterschiedlich: Daten-Deduplizierung sucht nach redundanten Datenblöcken, während Komprimierung einen Algorithmus verwendet, um die Anzahl der Bits zu reduzieren, die zur Darstellung der Daten erforderlich sind.

Bei der Deduplizierung werden häufig Komprimierung und Delta-Differenzierung verwendet. Zusammengenommen sind diese drei Datenreduzierungstechniken darauf ausgelegt, die Speicherkapazität zu optimieren.

Thin Provisioning optimiert die Nutzung der Kapazität in einem Speicherbereichsnetzwerk. Umgekehrt ist die Löschcodierung eine Methode der Datensicherung, bei der Daten in Fragmente zerlegt und jedes Fragment mit redundanten Datenstücken codiert wird, um die Rekonstruktion beschädigter Datensätze zu erleichtern.

Weitere Vorteile der Deduplizierung sind:

Deduplizierung von Primärdaten und der Cloud

Die Datendeduplizierung hat ihren Ursprung in der Datensicherung und im Sekundärspeicher, obwohl es möglich ist, primäre Datensätze zu deduplizieren. Es ist besonders hilfreich, die Flash-Speicherkapazität und Leistung zu maximieren. Die Deduplizierung des Primärspeichers erfolgt in Abhängigkeit von der Speicherhardware oder der Betriebssystemsoftware.

Techniken für Daten-Deduplizierung sind für Anbieter von Cloud-Diensten vielversprechend, wenn es um die Rationalisierung von Ausgaben geht. Die Fähigkeit, das zu deduplizieren, was sie speichern, führt zu geringeren Kosten für Plattenspeicher und Bandbreite für die Off-Site-Replikation.

Diese Definition wurde zuletzt im Juni 2020 aktualisiert

Erfahren Sie mehr über Backup-Lösungen und Tools

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

ComputerWeekly.de

Close