Definition

Globale Datendeduplizierung

Die globale Deduplizierung ist eine Methode zum Vermeiden redundanter Daten bei der Sicherung auf mehreren Deduplizierungsgeräten. Diese Methode kann auf die Sicherung auf mehr als einer Deduplizierungs-Appliance abzielen oder, im Falle der Quelldeduplizierung, die Sicherung von Daten auf mehreren Clients.

Bei der globalen Deduplizierung erkennt der zweite Knoten, wenn Daten von einem Knoten zu einem anderen gesendet werden, dass der erste Knoten bereits eine Kopie der Daten besitzt und erstellt keine zusätzliche Kopie. Das ist effizienter als die Single-Node-Deduplizierung, bei der nur Datensätze dedupliziert werden, die sich auf diesem Knoten befinden.

Da große Rechenzentren mehrere Backup-Ziele verwenden, ist die globale Deduplizierung die bevorzugte Deduplizierungstechnologie, da sie alle redundanten Kopien der Daten über alle Ziele hinweg entfernt. In einem Unternehmen mit einem hohen Datenaufkommen könnten andere Formen der Deduplizierung zu einem Engpass führen.

Heute bieten alle wichtigen Datensicherungssoftwareanwendungen und Datenspeicher mit Deduplizierungsfunktionen eine globale Deduplizierung an.

Vor- und Nachteile

Globale Deduplizierung macht den Prozess der effizienter, indem sie die Deduplizierungsquote erhöht, das heißt, das Verhältnis von geschützter Kapazität zur tatsächlich gespeicherten physischen Kapazität. Das trägt dazu bei, die erforderliche Kapazität von Festplatten- oder Bandsystemen zu reduzieren, die zum Speichern von Backup-Daten verwendet werden.

Globale Deduplizierung ermöglicht auch Hochverfügbarkeit und Load Balancing dank der Fähigkeit der Technologie, mehrere Geräte effizient zu verwalten. Sie ermöglicht auch eine größere Flexibilität bei den Datenaufbewahrungsrichtlinien, wie zum Beispiel verschiedene Speicherrichtlinien für unterschiedliche Datentypen, die in derselben Bibliothek gespeichert werden.

Da die globale Deduplizierung jedoch so komplex ist und auf einer so großen Ebene arbeitet, ist sie für kleinere Unternehmen weniger geeignet. Target- und Quelldeduplizierung funktionieren typischerweise besser in kleineren, weniger komplexen Umgebungen.

Während die globale Deduplizierung dazu beitragen kann, die Menge der gespeicherten Daten zu minimieren und die Upload-Geschwindigkeit zu erhöhen, kann sie in einigen Fällen die Datensicherheit gefährden. Da ein Datenblock von vielen Benutzern verwendet, aber nur einmal gespeichert wird, betrifft ein Ausfall sämtliche Nutzer.

Darüber hinaus kann es für Backup-Methoden schwieriger werden, Dateien zu finden und wiederherzustellen, wenn der Datenspeicher wächst.

Globale Deduplizierung und Cloud-Backup

Mit dem Aufkommen der Cloud-basierten Datensicherung ist globale Deduplizierung eine gute Möglichkeit, Kosten zu reduzieren; allerdings können sich die Kosten für das Verschieben großer Datenmengen, die notwendige, große Bandbreite und die Bereitstellung angemessener Sicherheit summieren.

Globale Deduplizierung kann helfen, Geld zu sparen, indem Daten über alle Geräte hinweg dedupliziert werden und der Speicherplatz besser genutzt wird. Weniger Speicher bedeutet geringere Kosten und auch weniger Backups.

Für geografisch verteilte Unternehmen und solche mit Remote-Benutzern kann die globale Deduplizierung helfen, Cloud-Backups zu beschleunigen. Mit global deduplizierten Daten profitiert jeder nachfolgende Benutzer, der auf ein Backup zugreift, von den vorherigen Instanzen der Deduplizierung. Um Bandbreite zu sparen, kann ein Unternehmen zuerst die Daten für diejenigen bereitstellen, die Zugang zu besserer Bandbreite haben, und dann für Remote-Benutzer, die die bereits deduplizierten Daten erhalten.

Globale Deduplizierung versus andere Formen der Deduplizierung

Deduplizierung gibt es in vielen Formen, und sie ist für unterschiedliche Umgebungen geeignet. Abhängig von der Größe des Unternehmens und der anfallenden Datenmenge ist die globale Deduplizierung möglicherweise nicht die beste Option für ein Unternehmen.

Die lokale Deduplizierung wertet die Datenredundanz aus, bevor die Daten gesichert werden und speichert die Daten in der Cloud. Während die globale Deduplizierung geräteübergreifend arbeitet, führt jedes Gerät in einer lokalen Deduplizierungsumgebung sie nur für dieses eine Gerät durch.

Da sie mit einem einzigen Deduplizierungsindex arbeitet, hat die globale Deduplizierung oft eine bessere Reduktionsrate. Im Gegenzug kann die lokale Deduplizierung zu einer besseren Leistung führen, da die Daten leichter zugänglich sind.

Die Deduplizierung pro Job ist eine Methode der Deduplizierung, die jeweils mit einem Backup-Job arbeitet. Bei großen Datenmengen, die gesichert werden müssen - und bei statischen Daten, die in ein Archiv sollen – kann es besser sein, die Deduplizierung pro Job zu verwenden, da sie nicht auf Basis aller Daten im System durchgeführt wird.

Komprimierung ist eine weitere Form der Datenreduzierung, die der globalen Deduplizierung ähnelt. Bei der Komprimierung wird die Datengröße mithilfe eines Algorithmus verkleinert, wodurch sich der Speicherplatz, den eine Datei einnimmt, drastisch reduzieren lässt. Im Gegensatz zur Deduplizierung arbeitet die Komprimierung auf Dateiebene und nicht mit Datenblöcken.

Bei der Inline-Deduplizierung werden doppelte Daten verarbeitet, während sie an das Backup-Ziel gesendet werden, sodass die Daten nur einmal verarbeitet und weitergegeben werden. Die Inline-Deduplizierung kann auch das Ziel für den Wiederherstellungspunkt und die Wiederherstellungszeit reduzieren, da die Daten sofort nach der Verarbeitung verfügbar sind.

Post-Processing oder asynchrone Deduplizierung ist die primäre Alternative zur Inline-Deduplizierung. Sie analysiert und entfernt redundante Daten, nachdem die Daten am Ziel gesichert wurden. Da die Post-Processing-Deduplizierung nach der Sicherung der Daten stattfindet, arbeitet sie schneller als die Inline-Deduplizierung. Dafür müssen Unternehmen aber den Speicherplatz zur Verfügung haben, um alle duplizierten Daten zu speichern, bevor sie verarbeitet werden.

Da die globale Deduplizierung eine Fähigkeit ist, kann sie sowohl in einem Inline- oder Post-Processing-Deduplizierungssystem implementiert sein.

Diese Definition wurde zuletzt im Februar 2021 aktualisiert

Erfahren Sie mehr über Storage Management

ComputerWeekly.de
Close