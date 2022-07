Apache Airflow ist ein Open Source Tool zum Erstellen, Verwalten und Überwachen von Workflows. Das Tool gehört zu den bekanntesten Programmen in diesem Bereich. Das Online-Portal Airbnb hat das Python-Tool ursprünglich entwickelt und stellt es seitdem als Open Source zur Verfügung.

Für die Erstellung und Verwaltung der Workflows steht eine grafische Oberfläche zur Verfügung. Neben der lokalen Installation ist Apache Airflow bei vielen Cloud-Anbietern erhältlich, darunter Microsoft Azure und Amazon Web Services (AWS).

Funktionsweise und Komponenten von Airflow

Airflow nutzt Directed Acyclic Graphs (DAG) um Workflows abzubilden. Die Steuerung der Workflows erfolgt wiederum mit dem Scheduler. Der Scheduler spielt bei den Zeitsteuerungen von Workflows eine wichtige Rolle, die später behandelt werden. Es ist möglich, mehrere Instanzen eines Schedulers zu definieren, mit dem sich die Latenzzeit von Workflows steuern lässt. In den Directed Acyclic Graphs sind die Aufgaben als Knoten dargestellt. Workflows bestehen aus einer Sequenz von Aufgaben, die in Airflow als Tasks definiert werden.

Workflows werden in der zugehörigen Python-Datei als DAG-Objekt angelegt. In diesem Objekt sind die Schritte und deren Reihenfolge definiert. Dabei sollte man darauf achten, dass die Aufgaben eines Workflows an der richtigen Stelle definiert sind, da diese normalerweise während der Ausführung anfallen.

Abbildung 1: Apache Airflow bildet Workflows mit Directed Acyclic Graphs (DAGs) ab.

Die DAG-Datei hat die Aufgabe, den Workflow zu definieren, nicht die Aufgaben zu steuern. Wenn die Datei zu groß wird, weil die Aufgaben nicht korrekt definiert sind, wird das System ausgebremst. Die Datei sollte also möglichst schlank gehalten werden. Im Rahmen der Zeitplanung sollte außerdem darauf geachtet werden, dass die Zeitangaben der Weboberfläche und der Workflows übereinstimmen. Standardmäßig ist UTC eingestellt, man kann aber in der Weboberfläche eine benutzerdefinierte Zeitzone festlegen.

Es ist außerdem möglich, Workflows zum gleichen Zeitpunkt starten zu lassen, auch wenn es sich dabei um überschneidende Workflows handelt, also Workflows, die sich gegenseitig beeinflussen können. Airflow bietet hier die Option, mit dem Parameter priority_weight eine Prioritätsreihenfolge zu definieren. Der Parameter kann für jede Aufgabe in einem Workflow definiert werden. Neben der Zeit können Worklows auf Ereignissen basieren.

Generell spielt die Zeit in Airflow eine wesentliche Rolle, da diese oft der wichtigste Ausgangspunkt für einen Workflow ist. Die Ausführungszeit wird in Airflow mit execution_time ausgedrückt. Das ist der Startzeitpunkt. Die Laufzeit entspricht dem Ende des Workflows, also wann der nächste Workflow starten kann.

Zur Bearbeitung von Workflows kommt der Worker von Airflow zum Einsatz. Der Zugriff erfolgt über den Webserver. Die Informationen der einzelnen Tasks speichert Airflow wiederum in der Meta-Datenbank. In den Protokolldateien sind alle Aufgaben und deren Abläufe zu sehen. Diese kommen vor allem zur Fehlerbehebung zum Einsatz.

Neben der weiten Verbreitung bietet das Tool den Vorteil, dass Python zur Definition von Workflows unterstützt wird. Wer sich mit Python auskennt und Worflows erstellen will, kommt mit Airflow schnell zum Ziel.

Zusätzlich steht eine grafische Oberfläche zur Verfügung. Hier ist es möglich, den Status der Workflows in Echtzeit zu verfolgen. Airflow kann eine Vielzahl von Diensten, Datenbanken und Cloud-Plattformen einbinden.