Definition

Google BigQuery

Google BigQuery ist ein Analytics-Webservice für die schnelle und interaktive Verarbeitung und Abfrage von großen Datensätzen. Der BigQuery-Service wurde für die Analyse von Daten in der Größenordnung von Milliarden von Zeilen ausgelegt – unter Nutzung einer SQL-ähnlichen Syntax.

Das System verwendet die verteilte Cloud-Storage-Infrastruktur von Google, was die Datenverarbeitung deutlich beschleunigt. So können damit auch große Datenmengen in wenigen Sekunden verarbeitet werden. Auf den Service kann mit einer REST-orientierten Programmierschnittstelle (API) zugegriffen werden.

Ursprünglich veröffentlich wurde BigQuery im Jahr 2011 als V2. Google nennt BigQuery eine „externalisierte Version“ seiner selbst entwickelten Dremel Query Servicesoftware. Dremel und BigQuery benutzen spaltenorientierten Speicher für das schnelle Daten-Scanning und eine Baumarchitektur für das Verteilen von Abfragen und die Aggregation der Ergebnisse in großen Computer-Clustern.

BigQuery wurde in seiner Dremel-Form innerhalb von Google verwendet, um Installationsdaten für Geräte zu verfolgen, Crash-Berichte zu erstellen und Spam zu analysieren. Seit ihrer Einführung wurden BigQuery-Funktionen ständig verbessert. So führte Google Anfang 2013 Big Join und Big Group Aggregations ein.

Mit Big Join ist es nicht länger notwendig, die Daten vorab zu vereinen, was bei sehr großen Datenmengen mit herkömmlicher Technik schwierig sein kann. Big Join kann Daten aus zwei großen Tabellen anhand eines gemeinsamen Schlüssels zusammenführen, ähnlich wie ein Join in SQL. Big Group Aggregations ermöglicht es, gleiche Daten, die auf mehrere Dateien aufgeteilt wurden, zu vereinen.

Zudem führte Google den Datentyp Timestamp ein. Damit lassen sich entsprechende Daten aus Datenbanken wie MySQL importieren, ohne dass Zeitzonenangaben verloren gehen. Damit einhergehend gibt es neue Funktionen, um Timestamps in andere Formate umzuwandeln.

Mike Mason erklärt in diesem Video, wie Google BigQuery funktioniert:

Diese Definition wurde zuletzt im Januar 2017 aktualisiert

Erfahren Sie mehr über Big Data

ComputerWeekly.de
Close