Was ist Apache Flink? - Definition von Computer Weekly

Apache Flink ist eine verteilte Datenverarbeitungsplattform für den Einsatz in Big-Data-Anwendungen, insbesondere die Analyse von in Hadoop-Clustern gespeicherten Daten.

Flink unterstützt eine Kombination aus In-Memory- und Festplatten-Verarbeitung sowie Batch als auch Streaming Jobs, wobei Data Streaming die Standardimplementierung und Batch Jobs als Spezialfälle von Streaming-Anwendungen ausgeführt werden.

Flink wurde als Alternative zu MapReduce entwickelt, der reinen Batch Processing Engine, die mit dem Hadoop Distributed File System (HDFS) in der ersten Version von Hadoop gepaart wurde. Die Flink-Software ist Open Source und entspricht den Lizenzbestimmungen der Apache Software Foundation. Die Entwicklung wird in erster Linie von DataArtisans, einem Start-up mit Sitz in Berlin, vorangetrieben.

Flink-Streaming-Anwendungen werden über eine DataStream-API mit Java oder Scala programmiert. Diese Sprachen können neben Python auch zur Programmierung gegen eine komplementäre DataSet-API zur Verarbeitung statischer Daten verwendet werden. Flink kann auf einer einzelnen Java Virtual Machine (JVM) im Standalone-Modus, auf YARN-basierten Hadoop-Clustern oder auf Cloud-Systemen eingesetzt werden.

Die Laufzeitumgebung von Flink unterstützt eine Pipeline-Streaming-Architektur. Außerdem bietet Flink eine integrierte Methode zur Unterstützung iterativer Datenverarbeitung für Machine Learning und andere Analyseanwendungen. Dedizierte APIs und Bibliotheken werden für die Entwicklung von Machine-Learning-Programmen sowie für die Bearbeitung von Strings, Graphen und andere Anwendungen zur Verfügung gestellt. Eine weitere API konzentriert sich auf die Integration von Hadoop-Anwendungen.

Flink entstand als Ableger von Stratosphere, einem Projekt, das 2009 an drei Universitäten in Deutschland gestartet wurde: der Technischen Universität Berlin, der Humboldt-Universität in Berlin und dem Hasso-Plattner-Institut.

Die Flink-Technologie wurde im April 2014 zu einem Apache-Incubator-Projekt und Ende desselben Jahres zu einem Top-Level-Projekt. Nach neun früheren Versionen wurde Apache Flink 1.0.0 im März 2016 veröffentlicht. Damit schloss sich Flink offiziell anderen Hadoop-Frameworks wie Spark, Storm und Samza an, um Big-Data-Streaming-Fähigkeiten bereitzustellen.

Apache Flink

Erfahren Sie mehr über Datenverwaltung

Hadoop und Spark: wie unterscheiden oder ergänzen sie sich?

Apache Iceberg im Data Lakehouse: ein Einstieg

Die 18 wichtigsten Big-Data-Plattformen und -Technologien

Apache Kylin: Analytical Data Warehouse für Big Data