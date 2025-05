Apache Iceberg wurde ursprünglich bei Netflix entwickelt, um die Nachteile des Hive-Formats zu überwinden. Die Entwicklung wurde später in die Apache Software Foundation überführt. Iceberg ist heute nicht nur ein Tabellenformat, sondern ein offener Data-Lakehouse-Ansatz, der sich durch Flexibilität, hohe Skalierbarkeit und eine breite Interoperabilität auszeichnet.

Die zugrunde liegende Philosophie, Rechenprozesse zur Datenhaltung bereitzuhalten, ermöglicht es Organisationen, verschiedene Engines wie Spark, Flink oder Trino parallel auf denselben Datensätzen zu betreiben. Das verringert nicht nur Datenredundanzen, sondern vermeidet auch kostspielige Migrationen.

Durch seine Offenheit schützt Apache Iceberg langfristig vor einem Tool-Lock-in und legt damit das Fundament für zukunftssichere Analyseplattformen. Neben der nativen Snapshot-Verwaltung lassen sich mit Tools wie Project Nessie katalogübergreifende Branches und Tags nutzen. Für einen schnellen Einstieg kann man Iceberg und Spark über Container bereitstellen und miteinander verknüpfen. Auf der Website von Estuary findet sich eine umfangreiche Anleitung für die Inbetriebnahme von Apache Iceberg.

Neben der reinen Snapshot-Verwaltung erlaubt Iceberg auch Branching und Tagging. Branches stellen alternative Entwicklungslinien einer Tabelle dar, zum Beispiel zur Validierung neuer Pipelines oder Simulation historischer Abläufe. Tags erfassen explizit gekennzeichnete Zeitpunkte der Tabellenentwicklung. In Kombination mit dem Projekt Nessie können sogar versionierte Kataloge gepflegt werden, wodurch transaktionale Operationen über mehrere Tabellen hinweg möglich werden.

Iceberg verfolgt ein streng versioniertes Datenmodell. Jede Änderung an einer Tabelle erzeugt einen neuen Snapshot. Die Snapshot-Historie ist in den Metadatendateien enthalten und erlaubt Features wie Time Travel, Rewrites, Abgleiche und Restore-Szenarien.

Das System verwaltet Schema-IDs und Partitionierungsspezifikationen als separate, versionierte Objekte. Dadurch kann jede Datei eindeutig einem Schema zugeordnet werden. Tabellen können jederzeit erweitert, Spalten umbenannt, gelöscht oder in der Reihenfolge verändert werden. Iceberg erlaubt diese Operationen ohne Rewrite der kompletten Tabelle. Gleiches gilt für die Partitionierung.

SQL-Semantik und Performance-Optimierungen

Iceberg unterstützt eine Vielzahl von SQL-Operationen, darunter MERGE INTO, UPDATE, DELETE und INSERT. Die Kombination mit Prädikaten und Filterbedingungen auf Partitionsebene oder Spaltenstatistiken erlaubt hocheffizientes Query Planning. Metadaten enthalten unter anderem Spaltenstatistiken wie Null-Counts, Value Bounds oder Record Counts, was Engines zur Laufzeit nutzen können, um Pläne zu optimieren.

Ein zentrales Feature ist zudem die native Unterstützung für Kompaktionen. Während viele Systeme durch eine wachsende Anzahl kleiner Dateien an Performance verlieren, bietet Iceberg eingebaute Rewrite-Strategien wie Bin-Packing oder Sortierung, um die physische Dateistruktur zu optimieren.