Definition

SQL on Hadoop

Diese Definition ist Teil unseres Essential Guides: Big Data: Anwendung, Datenschutz und Technologie

SQL on Hadoop ist eine Klasse von analytischen Anwendungen, die SQL-Abfragen mit neuen Elementen des Open-Source-Frameworks Apache Hadoop kombiniert.

Durch die Unterstützung von bekannten SQL-Abfragen ermöglicht SQL on Hadoop einem breiten Anwenderkreis die Arbeit mit Hadoop auf handelsüblichen Computer-Clustern. Da SQL ursprünglich für relationale Datenbanken entwickelt wurde, musste es für Hadoop modifiziert werden, da die erste Version des Open-Source-Frameworks MapReduce und das Hadoop Distributed File System (HDFS) einsetzt.

Die Methoden, um SQL in Hadoop-Umgebungen auszuführen, lassen sich einteilen in (1) Konnektoren, die SQL in ein MapReduce-Format übersetzen; (2) Pushdown-Systeme, die auf batch-orientiertes MapReduce verzichten und SQL innerhalb von Hadoop-Clustern ausführen; und (3) Systeme, welche die SQL-Prozesse zwischen MapReduce-/HDFS-Clustern und reinen HDFS-Clustern je nach Auslastung verteilen.

Einer der ersten Ansätze, SQL und Hadoop zu kombinieren, gipfelte in der Data-Warehouse-Umgebung Apache Hive, die HiveQL für die Übersetzung von SQL-ähnlichen Abfragen in MapReduce Jobs einsetzte.

Zu den weiteren Tools, die SQL on Hadoop unterstützen, zählen BigSQL, Drill, Hadapt, Hawq, H-SQL, Impala, JethroData, Polybase, Presto, Shark (Hive on Spark), Spark, Splice Machine, Stinger und Tez (Hive on Tez).

Diese Definition wurde zuletzt im November 2015 aktualisiert

Erfahren Sie mehr über Datenverwaltung

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

ComputerWeekly.de

Close