Definition

Extract, Transform, Load (ETL)

ETL steht für Extract, Transform, Load und bedeutet, Daten aus einer oder mehreren Datenquellen zu lesen, aufzubereiten und in eine Datenbank oder ein Data Warehouse zu laden. ELT ist eine Variation von ETL, bei der die Reihenfolge der Schritte ausgetauscht wird.

In der Praxis kommen unternehmensrelevante Daten meist nicht aus einem zentralen System, sondern sind auf verschiedene Subsysteme, oftmals redundant, verteilt. Die Abfrage nach bestimmten Informationen ist dadurch schwierig realisierbar und fehlerbehaftet, da verschiedene Datenbasen unterschiedliche Ergebnisse liefern können.

ETL ist prinzipiell ein Datenintegrationsprozess, der bei der Überführung von Rohdaten von einem Quellserver zu einem Data Warehouse auf einem Zielserver angewendet wird. Das Ziel ist es, die Daten für nachgelagerte Anwendungen vor- und aufzubereiten. Diese Funktion ist besonders nützlich für die Verarbeitung von großen Datenmengen, wie sie für Business Intelligence (BI) und Big-Data-Analytics erforderlich sind.

Um Daten aus mehreren Datenquellen zu vereinigen und aufzubereiten werden sie mittels gezielter Umwandlungsaktionen in Management-relevante Informationen überführt. Diese Aktion wird in drei Schritten im ETL-Prozess vollzogen:

  • Extraktion (Extract) der relevanten Daten aus verschiedenen Quellen;
  • Transformation (Transform) der Daten in das Schema und Format der Zieldatenbank;
  • Laden (Load) der Daten in das Data Warehouse.

Der erste Schritt des ETL-Prozesses ist die Extraktion. In diesem Anfangsschritt werden die Daten aus den Quellsystemen ausgewählt und für den folgenden Transformationsvorgang vorbereitet. In der Regel wird bei der Extraktion lediglich ein Ausschnitt aus den Quelldaten selektiert.

Der zweite Schritt ist die Datentransformation. Hierbei werden die Ausgangsdaten an das geforderte Zielschema angepasst. Die Transformation setzt sich aus den vier Teilprozessen Filterung, Harmonisierung, Aggregation und Anreicherung zusammen. Die folgende Tabelle gibt einen kurzen Überblick.

Filterung

Extraktion und Bereinigung syntaktischer und inhaltlicher Defekte der Daten.

Harmonisierung

Betriebswirtschaftliche Abstimmung der gefilterten Daten.

Aggregation

Verdichtung der gefilterten und harmonisierten Daten.

Anreicherung

Berechnung und Speicherung betriebswirtschaftlicher Kennzahlen.

Die beiden ersten Teilprozesse -  Filterung und Harmonisierung - sind für die Bereinigung und Aufbereitung von Daten zuständig, etwa die Angleichung unterschiedlicher Kodierungen und Währungen. Die beiden folgenden Schritte der Aggregation und Anreicherung fassen Daten themenspezifisch zusammen und erweitern sie um betriebswirtschaftliche Kennzahlen.

Der dritte Schritt von ETL, das „L“, ist das „Laden“ der geprüften Daten. Beim Laden werden die vorbereiteten Daten in das Data Warehouse integriert. Hierfür müssen sie physisch in die Datenbank des Data Warehouses verschoben und darauf aufbauende Datenanalysesysteme aktualisiert werden.

Im Umfeld von Big Data wird statt ETL oft ELT angewendet also: Extract, Load, Transform. Dabei wird – anders als bei ELT - zuerst geladen und dann transformiert. Das bedeutet, dass die Daten zwar weiter aus verschiedenen Datenquellen extrahiert, aber in der jeweiligen Rohform in das Big-Data-System geladen werden. Man spricht hier oft von einem Data Lake. Die Transformationen werden dann auf den Rohdaten ausgeführt, deren Ergebnisse im gleichen Datensystem verbleiben.

Diese Definition wurde zuletzt im Juni 2015 aktualisiert

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close