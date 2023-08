Apache Kylin ist eine Open Source OLAP-Engine (Online Analytical Processing), die für die Analyse von Big Data entwickelt wurde. Mit der Technologie lassen sich große Datensätze in Echtzeit verarbeiten und komplexe Abfragen auf multidimensionalen Datenwürfeln ausführen. Mit Kylin lässt sich ein Data Warehouse aufbauen, um komplexe Datenstrukturen zu analysieren.

Die Stärke von Apache Kylin liegt in seiner Fähigkeit, schnelle und interaktive Abfragen auf großen Datensätzen durchzuführen, ohne die Notwendigkeit komplexer ETL-Prozesse oder den Einsatz proprietärer Hardware. Indem die Lösung ein verteiltes und skalierbares Architekturmodell nutzt, kann Kylin große Datensätze in einem verteilten Cluster-Setup parallel verarbeiten.

Durch die Kombination von Kylin und Spark können Datenanalysten von der parallelen Verarbeitung und der In-Memory -Verarbeitungsfähigkeit von Spark profitieren. Spark ermöglicht es, Daten in Echtzeit zu verarbeiten und die Ergebnisse in den zuvor berechneten Würfeln von Kylin zu speichern, was zu schnellen Abfragezeiten und interaktiven Analyseergebnissen führt.

Eine weitere wichtige Verbindung besteht zu Apache Kafka , einem verteilten Event-Streaming-System. Kylin kann Daten aus Kafka verarbeiten und analysieren, was besonders wertvoll ist, wenn es um die Echtzeitanalyse von strukturierten Streaming-Daten geht. Durch die Integration mit Kafka kann Kylin diese Daten in Echtzeit verarbeiten und die Ergebnisse in den voraufbereiteten Würfeln speichern. Dadurch stehen die Analyseergebnisse unmittelbar zur Verfügung.

Kylin ist ebenfalls mit Apache Hive kompatibel, ein Data-Warehouse-System auf Hadoop, das eine SQL -ähnliche Abfragesprache verwendet. Die Integration mit Hive erlaubt es Kylin, auf strukturierte Daten zuzugreifen, die in Hive-Tabellen gespeichert sind, und diese Daten in multidimensionale Würfel umzuwandeln.

Eine der bemerkenswertesten Funktionen von Kylin ist das Cube Incremental Build. Diese ermöglicht es, nur die aktualisierten Daten in den vorberechneten Würfeln zu verarbeiten, anstatt den gesamten Datenbestand neu zu berechnen. Dies führt zu Zeitersparnissen bei der Aktualisierung der Analyseergebnisse und gestattet Datenanalysen in Echtzeit.

Einstieg in Apache Kylin

Kylin basiert auf Hadoop und Spark, daher sollten grundlegende Kenntnisse dieser Lösungen vorhanden sein. Außerdem benötigt man Zugriff auf Hadoop-Cluster oder eine Spark-Infrastruktur. Im Rahmen der Einführung wird Apache Kylin auf dem Hadoop-Cluster oder Spark-Setup installiert. Der Download ist über die Website des Tools möglich. Dort findet man auch eine Dokumentation mit Anleitungen zu Installation und Konfiguration.

Nach der Einrichtung ist es wichtig, die Daten vorzubereiten, um mit Kylin zu arbeiten. Die relevanten Daten werden in das Hadoop-Dateisystem oder in die Hive-Tabellen geladen, je nachdem, wie die Daten gespeichert werden sollen. Die Daten müssen in einem für Kylin lesbaren Format vorliegen.

Ein entscheidender Schritt besteht in der Erstellung eines Cube in Kylin. Ein Cube ist ein multidimensionaler Würfel, der vorberechnete aggregierte Daten enthält und schnelle OLAP-Analysen ermöglicht. Hierfür müssen die Daten in einem Cube-Modell organisiert werden, bevor der Cube in Kylin erstellt wird. Kylin bietet hierfür eine benutzerfreundliche Benutzeroberfläche oder eine REST API zur Unterstützung. Nach Erstellung des ersten Cube können OLAP-Abfragen ausgeführt werden.