Definition

Komprimierung

Datenkomprimierung ist eine Reduzierung der Anzahl von Bits, die zur Darstellung von Daten benötigt werden. Die Komprimierung von Daten kann Speicherkapazität sparen, die Dateiübertragung beschleunigen und die Kosten fürSpeicherhardware+ und Netzwerkbandbreite senken.

Fortsetzung des Inhalts unten

Funktionsweise der Komprimierung

Die Komprimierung wird von einem Programm durchgeführt, das eine Formel oder einen Algorithmus verwendet, um zu bestimmen, wie die Größe der Daten zu verkleinern ist. Ein Algorithmus kann beispielsweise eine Zeichenfolge von Bits - oder 0 und 1 - mit einer kleineren Zeichenfolge von 0 und 1 darstellen, indem ein Wörterbuch für die Konvertierung zwischen ihnen verwendet wird, oder die Formel kann einen Verweis oder Zeiger (pointer) auf eine Zeichenfolge von 0 und 1 einfügen, die das Programm bereits gesehen hat.

Die Textkomprimierung kann auch einfach so umgesetzt werden, indem alle nicht benötigten Zeichen entfernt werden. Dabei wird ein einzelnes Wiederholungszeichens eingefügt, das auf eine Zeichenfolge aus sich wiederholenden Zeichen verweist, und ersetzt eine häufig vorkommenden Bitfolge durch eine kleinere Bitfolge. Durch Datenkomprimierung kann eine Textdatei auf 50 Prozent oder einen wesentlich höheren Prozentsatz ihrer ursprünglichen Größe reduziert werden.

Bei der Datenübertragung kann die Komprimierung auf den Dateninhalt oder auf die gesamte Übertragungseinheit, einschließlich der Kopfdaten (Header data), angewendet werden. Wenn Informationen über das Internet gesendet oder empfangen werden, können größere Dateien, entweder einzeln oder zusammen mit anderen als Teil einer Archivdatei, in einem ZIP-, GZIP- oder anderen komprimierten Format übertragen werden.

Darum ist Datenkomprimierung wichtig

Die Datenkompression kann den Speicherbedarf einer Datei drastisch reduzieren. Bei einem Komprimierungsverhältnis von 2:1 nimmt beispielsweise eine Datei von 20 Megabyte (MB) zehn MB Speicherplatz in Anspruch. Als Folge der Komprimierung geben Administratoren weniger Geld und weniger Zeit für die Speicherung aus.

Die Komprimierung optimiert die Leistung des Backup-Speichers und hat sich kürzlich bei der Reduzierung von Primärspeicherdaten gezeigt. Die Komprimierung wird eine wichtige Methode zur Datenreduzierung sein, da die Daten weiterhin exponentiell wachsen.

Praktisch jeder Dateityp kann komprimiert werden, aber es ist wichtig, bei der Auswahl der zu komprimierenden Dateien die bewährten Verfahren zu befolgen. Beispielsweise können einige Dateien bereits komprimiert sein, so dass die Komprimierung dieser Dateien keine signifikanten Auswirkungen hätte.

Komprimierungsverfahren: verlustfreie und verlustbehaftete Komprimierung

Das Komprimieren von Daten kann ein verlustfreier oder verlustbehafteter Prozess sein. Die verlustfreie Komprimierung ermöglicht die Wiederherstellung einer Datei in ihren ursprünglichen Zustand, ohne dass ein einziges Datenbit verloren geht, wenn die Datei unkomprimiert ist. Die verlustfreie Komprimierung ist der typische Ansatz bei ausführbaren Dateien sowie bei Text- und Tabellenkalkulationsdateien, bei denen der Verlust von Wörtern oder Zahlen die Informationen verändern würde.

Professor David Brailsford, von der School of Computer Science an der Universität von Nottingham, diskutiert die Komprimierung von Text und Bildern.

Bei der verlustbehafteten Komprimierung werden Datenbits, die redundant, unwichtig oder unmerklich sind, dauerhaft eliminiert. Die verlustbehaftete Komprimierung ist bei Grafiken, Audio-, Video- und Bilddateien nützlich, bei denen die Entfernung einiger Datenbits nur geringe oder keine wahrnehmbare Auswirkung auf die Darstellung des Inhalts hat.

Die Komprimierung von Grafikbildern kann verlustbehaftet oder verlustfrei erfolgen. Grafikbilddateiformate sind in der Regel für die Komprimierung von Informationen ausgelegt, da die Dateien in der Regel groß sind. JPEG ist ein Bilddateiformat, das verlustbehaftete Bildkomprimierung unterstützt. Formate wie GIF und PNG verwenden eine verlustfreie Komprimierung.

Im Vergleich: Komprimierung vs. Daten-Deduplizierung

Komprimierung wird oft mit Daten-Deduplizierung verglichen, aber die beiden Techniken funktionieren unterschiedlich. Deduplizierung ist eine Art der Komprimierung, bei der nach redundanten Datenblöcken in einem Speicher oder Dateisystem gesucht wird und dann jeder doppelte Datenblock durch einen Zeiger auf das Original ersetzt wird. Datenkomprimierungsalgorithmen reduzieren die Größe der Bitfolgen in einem Datenstrom, der einen viel kleineren Umfang hat und sich im Allgemeinen nicht mehr als das letzte Megabyte oder weniger an Daten merkt.

Mike Matchett, Analyst der Taneja Group, diskutiert den Nutzen von Komprimierung und Deduplizierung und erklärt den Unterschied zwischen beiden Verfahren.

Bei der Deduplizierung auf Dateiebene werden überflüssige Dateien eliminiert und durch Stubs ersetzt, die auf die Originaldatei verweisen. Die Deduplizierung auf Blockebene identifiziert doppelte Daten auf der Ebene der Unterdatei. Das System speichert eindeutige Instanzen jedes Blocks, verarbeitet sie mit einem Hash-Algorithmus und generiert eine eindeutige Kennung, um sie in einem Index zu speichern. Bei der Deduplizierung wird in der Regel nach größeren Blöcken doppelter Daten als bei der Komprimierung gesucht, und Systeme können die Deduplizierung mit einem festen oder variablen Block durchführen.

Die Deduplizierung ist am effektivsten in Umgebungen mit einem hohen Grad an redundanten Daten, wie zum Beispiel virtuelle Desktop-Infrastrukturen oder Backup-Systeme. Die Datenkomprimierung ist in der Regel effektiver als die Deduplizierung, da sie die Größe eindeutiger Informationen wie Bilder, Audio- und Videodaten, Datenbanken und ausführbare Dateien reduziert. Viele Speichersysteme unterstützen sowohl Komprimierung als auch Deduplizierung.

Datenkomprimierung und Backup

Komprimierung wird oft für Daten verwendet, auf die nur wenig zugegriffen wird, da der Prozess intensiv sein und die Systeme verlangsamen kann. Administratoren können die Komprimierung jedoch nahtlos in ihre Backup-Systeme integrieren.

Die Datensicherung ist eine redundante Art der Workload, da der Prozess häufig dieselben Dateien erfasst. Eine Organisation, die vollständige Backups durchführt, hat oft nahezu dieselben Daten von Backup zu Backup.

Die Komprimierung von Daten vor der Sicherung hat große Vorteile:

  • Die Daten benötigen weniger Platz, da das Komprimierungsverhältnis bis zu 100:1 betragen kann, aber zwischen 2:1 und 5:1 ist üblich.
  • Wenn die Komprimierung vor der Übertragung in einem Server durchgeführt wird, werden die für die Übertragung der Daten benötigte Zeit und die gesamte Netzwerkbandbreite drastisch reduziert.
  • Auf Band kann das komprimierte, kleinere Dateisystemabbild schneller gescannt werden, um eine bestimmte Datei zu erreichen, wodurch die Wiederherstellungslatenz reduziert wird.
  • Die Komprimierung wird durch Sicherungssoftware und Bandbibliotheken unterstützt, so dass eine Auswahl an Datenkomprimierungstechniken zur Verfügung steht.

Vor- und Nachteile der Komprimierung

Die Hauptvorteile der Komprimierung sind eine Reduzierung der Speicherhardware, der Datenübertragungszeit und der Kommunikationsbandbreite - und die daraus resultierenden Kosteneinsparungen. Eine komprimierte Datei benötigt weniger Speicherkapazität als eine nicht komprimierte Datei, und die Verwendung der Komprimierung kann zu einer erheblichen Senkung der Kosten für Festplatten- und/oder Solid-State-Laufwerke führen. Eine komprimierte Datei benötigt auch weniger Zeit für die Übertragung und verbraucht weniger Netzwerkbandbreite als eine nicht komprimierte Datei.

Der Hauptnachteil der Datenkomprimierung ist die Auswirkung auf die Leistung, die sich aus der Verwendung von CPU- und Speicherressourcen zur Komprimierung der Daten und zur Durchführung der Dekomprimierung ergibt. Viele Anbieter haben ihre Systeme so konzipiert, dass sie versuchen, die Auswirkungen der prozessorintensiven Berechnungen, die mit der Komprimierung verbunden sind, zu minimieren. Wenn die Komprimierung inline läuft, bevor die Daten auf die Festplatte geschrieben werden, kann das System die Komprimierung auslassen, um die Systemressourcen zu schonen. IBM verwendet beispielsweise eine separate Hardware-Beschleunigungskarte, um die Komprimierung mit einigen seiner Unternehmensspeichersysteme zu handhaben.

Wenn die Daten nach dem Schreiben auf die Festplatte oder nach der Verarbeitung komprimiert werden, kann die Komprimierung im Hintergrund laufen, um die Auswirkungen auf die Leistung zu verringern. Obwohl die Post-Prozess-Komprimierung die Reaktionszeit für jeden I/O reduzieren kann, verbraucht sie dennoch Speicher und Prozessorzyklen und kann die Gesamtzahl der I/Os, die ein Speichersystem verarbeiten kann, beeinflussen. Da die Daten anfangs unkomprimiert auf die Festplatte oder auf Flash-Laufwerke geschrieben werden müssen, sind die physischen Speichereinsparungen nicht so groß wie bei der Inline-Komprimierung.

Techniken der Datenkompression: Dateisystem-Komprimierung

Die Dateisystemkomprimierung ist ein relativ einfacher Ansatz zur Reduzierung des Speicherbedarfs von Daten, indem jede Datei beim Schreiben transparent komprimiert wird.

Viele der beliebten Linux-Dateisysteme - einschließlich Reiser4, ZFS und btrfs - und Microsoft NTFS verfügen über eine Komprimierungsoption. Der Server komprimiert Datenblöcke in einer Datei und schreibt dann die kleineren Fragmente in den Speicher.

Das Zurücklesen erfordert eine relativ geringe Latenzzeit, um jedes Fragment zu expandieren, während das Schreiben den Server erheblich belastet, so dass eine Komprimierung für flüchtige Daten normalerweise nicht empfohlen wird. Die Komprimierung des Dateisystems kann die Leistung schwächen, weshalb sie selektiv für Dateien eingesetzt werden sollte, auf die nicht häufig zugegriffen wird.

In der Vergangenheit waren bei den teuren Festplatten der frühen Computer Datenkomprimierungssoftware wie DiskDoubler und SuperStor Pro beliebt und halfen bei der Etablierung der Mainstream-Dateisystemkomprimierung.

Speicheradministratoren können auch die Technik der Komprimierung und Deduplizierung zur verbesserten Datenreduzierung anwenden.

Technologien und Produkte

Die Komprimierung ist in eine Vielzahl von Technologien integriert, darunter Speichersysteme, Datenbanken, Betriebssysteme und Softwareanwendungen, die von Unternehmen und Unternehmensorganisationen verwendet werden. Die Komprimierung von Daten ist auch in Verbrauchergeräten wie Laptops, PCs und Mobiltelefonen üblich.

Viele Systeme und Geräte führen die Komprimierung transparent durch, aber einige bieten den Benutzern die Möglichkeit, die Komprimierung ein- oder auszuschalten. Sie kann mehr als einmal an derselben Datei oder demselben Datenstück durchgeführt werden, aber nachfolgende Komprimierungen führen zu wenig bis gar keiner zusätzlichen Komprimierung und können die Dateigröße je nach den Datenkomprimierungsalgorithmen sogar leicht erhöhen.

WinZip ist ein beliebtes Windows-Programm, das Dateien beim Paketieren in einem Archiv komprimiert. Zu den Archivdateiformaten, die die Komprimierung unterstützen, gehören ZIP und RAR. Die Formate BZIP2 und GZIP sind für die Komprimierung einzelner Dateien weit verbreitet.

Andere Anbieter, die Komprimierung anbieten, sind Dell EMC mit seinem XtremIO-All-Flash-Array, Kaminario mit seinem K2-All-Flash-Array und RainStor mit seiner Datenkomprimierungssoftware.

Data Differencing – Differentielle Komprimierung

Data Differencing, oder auch differentielle Komprimierung, ist ein allgemeiner Begriff für den Vergleich des Inhalts zweier Datenobjekte. Im Zusammenhang mit der Komprimierung bedeutet dies, dass die Zieldatei wiederholt durchsucht wird, um ähnliche Blöcke zu finden, und diese durch einen Verweis auf ein Bibliotheksobjekt ersetzt werden. Dieser Vorgang wird so lange wiederholt, bis keine weiteren doppelten Objekte mehr gefunden werden. Die Datendifferenzierung kann zu vielen komprimierten Dateien führen, wobei nur ein Element in der Bibliothek jedes duplizierte Objekt repräsentiert. Dieses Verfahren ist auch als Delta-Kodierung bekannt.

Auf virtuellen Desktops kann diese Technik ein Komprimierungsverhältnis von bis zu 100:1 aufweisen. Der Prozess ist oft enger an die Deduplizierung angelehnt, bei der nach identischen Dateien oder Objekten gesucht wird, anstatt innerhalb des Inhalts jedes Objekts.

Diese Definition wurde zuletzt im Februar 2020 aktualisiert

Erfahren Sie mehr über Storage Management

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

ComputerWeekly.de

Close