Definition

Apache Hive

Mitarbeiter: Delaney Rebernik

Apache Hive ist ein Open-Source Data Warehouse-System für Abfragen und Analysen großer, in Hadoop gespeicherter Datensets. Hadoop ist ein Framework für die Verarbeitung von Datensets in verteilten Rechenumgebungen.

Hive hat drei Hauptfunktionen: Datenzusammenfassung, -abfragen und -analysen. Es unterstützt Abfragen, die in der Sprache HiveQL verfasst wurden. Diese übersetzt SQL-artigen Abfragen automatisch in MapReduce-Jobs, die in Hadoop ausgeführt werden. Zusätzlich unterstützt HiveQL in Abfragen das Einbetten individueller MapReduce-Skripte. Hive ermöglicht zudem eine Serialisierung/Deserialisierung von Daten und erhöht die Flexibilität beim Entwurf von Schemata, indem es einen Systemkatalog – den Hive-Metastore – zur Verfügung stellt.

Laut der Apache Hive-Wiki wurde "Hive nicht für OLTP-Workloads ausgelegt und bietet keine Echtzeit-Abfragen oder -Updates auf Zeilenebene. Es lässt sich am besten für Batch-Jobs mit großen Sets nur aufzunehmender Daten (wie zum Beispiel Web-Logs) verwenden."

Hive unterstützt Textdateien (auch Flat-Files genannt), SequenceFiles (Flat-Files, die aus binären Schlüssel/Wertepaaren bestehen) und RCFiles (Record Columnar Files, welche die Spalten einer Tabelle in der Art einer spaltenbasierten Datenbank speichern).

Diese Definition wurde zuletzt im November 2012 aktualisiert

Erfahren Sie mehr über Datenverwaltung

- GOOGLE-ANZEIGEN

Extensions de fichiers et formats de fichiers

Motorisé par:

ComputerWeekly.de

Close