Gorodenkoff - stock.adobe.com

Feature

Data Warehouses erleben in der Cloud eine Renaissance

Cloud Data Warehouses finden Gefallen bei Teams, die die Verwaltung der Infrastruktur abgeben möchten. Neuere Data-Warehouse-Services übernehmen viele Administrationsaufgaben.

von

Jack Vaughan, News and Site Editor

Zuletzt aktualisiert: 19 Nov. 2020

Das klassische Data Warehouse geriet in den letzten Jahren in die Kritik. Zum einen führten die Massen an unstrukturierten Daten dazu, dass einige Unternehmen ihre Analysen überdachten. Zum anderen brachte die Begeisterung für Hadoop die Data Warehouses in die Defensive.

Nun erlebt das Data Warehouse ein Comeback – in Form von Cloud Data Warehouses. Sogar altgediente Berater sehen darin eine Wiedergeburt des Interesses am Data Warehouse.

„Es gibt heute einige Leute, die die Idee des Data Warehouse wieder in den Unternehmen etablieren möchten“, sagt William McKnight, Präsident der McKnight Consulting Group. Er weist darauf hin, dass Pläne für neue Data-Warehouse-Ansätze vor dem Hintergrund der Veränderungen in Hadoop entstehen.

Mit dem Hadoop Data Lake hat die verteilte Datenverarbeitungsplattform Hadoop die Aufmerksamkeit von etablierten, vertikal skalierbaren Data Warehouses abgezogen. Jetzt aber trifft Hadoop selbst auf neue Konkurrenz – in Form von Cloud Data Warehouses.

Die Migration in die Cloud und das Interesse an Cloud Object Storage anstelle der Speicherung im Hadoop Distributed File System (HDFS) ist laut McKnight einer der Gründe für das Interesse an den neuen Data Warehouses. Hinzu kommt die Tatsache, dass bestehende Data Warehouses oft ein zu hohes Alter haben. „Das Data Warehouse ist aktuell wahrscheinlich der Ort, an dem die Dateninfrastruktur saniert werden muss – mehr als irgendwo sonst“, sagt er.

Data-Warehouse-Aufstellung

Neuere Data-Warehouse-Anbieter wie Snowflake und Yellowbrick Data schlagen innovative Ansätze vor, die das Data Warehousing beleben könnten.

Snowflake – das seinen Namen vom bekannten Data Warehouse Schneeflockenschema ableitet – bietet ein spaltenförmiges SQL Data-Warehouse als Service an. Das kalifornische Unternehmen wird von CEO Bob Muglia geleitet, dem ehemaligen Leiter des Microsoft-Geschäftsbereichs Server und Tools.

Yellowbrick ist Hersteller einer Data-Warehouse-Appliance, die auf Flash-Speicher basiert. Das Unternehmen wird von CEO Neil Carson, ehemals CEO beim Flash-Speicherspezialisten Fusion.io, geleitet. Die primären Ziele von Yellowbrick sind lokale, hybride und private Cloud-Implementierungen – die Public Cloud ist noch nicht eingeschlossen.

Diese und andere Systeme konkurrieren mit den Data-Warehouse-Projekten von klassischen Cloud-Anbietern. Angeführt wird die Cloud-Kategorie von Amazon Web Services (AWS), die mit dem Einstieg von Amazon Redshift im Jahr 2013 zum Vorreiter im Bereich der Cloud Data Warehouses wurden.

Weitere Anbieter, die den Umstieg auf Data Warehouses in der Cloud erleichtern, sind unter anderem IBM mit Db2 on Cloud, Microsoft mit Azure SQL Data Warehouse, Oracle mit Autonomous Data Warehouse und Teradata mit Vantage.

Hinzu kommen Hadoop-Player wie MapR, Hortonworks und Cloudera – die mittlerweile alle unter dem Namen Cloudera zusammengeführt wurden. Sie zielen unter anderem auf Data-Warehouse-Anwendungen für ihre Open-Source-Plattformen ab.

Die Popularität von Hadoop hat aber einige Kritiker unter den Data-Warehouse-Anhängern auf den Plan gerufen. „Hadoop wird als einer der größten technologischen Fakes in die Geschichte eingehen“, sagt Matt Glickman, stellvertretender Vorsitzender für Kunden- und Produktstrategie bei Snowflake.

Er räumte zwar ein, dass die Data Lakes, die um Hadoop herum entstanden sind, nützlich sein können. Gleichzeitig kritisierte er aber, dass Hadoop bei Abfragen mit hoher Parallelität immer noch hinterherhinkt. Letzteres ist ein Bereich, auf den sich Snowflake konzentriert.

Data-Warehouse-Training

Für Carlin Eng, Data Engineer bei Strava, einem in San Francisco ansässigen Anbieter von Sport- und Trainings-Apps, hat sich der Snowflake Cloud Data Warehouse Service als nützliche Plattform erwiesen.

Mit Unterstützung der im Data Warehouse erstellten Analysen kann Strava neue Funktionen an Benutzer anpassen, die einen GPS-Tracker einsetzen. Die Anwender können damit ihre eigenen Trainingspläne erstellen, ihre Trainingsaktivität analysieren und am sozialen Netzwerk von Strava teilnehmen.

Strava wurde 2009 gegründet und ist Cloud-nativ. Die Daten ihrer Kunden werden zuerst in die Cloud übertragen. Ein Cloud Data Warehouse ist in diesem Fall die perfekte Lösung, ist Eng überzeugt. Das Auslesen dieser Daten für das Aufspüren von Trends ist ebenso wichtig wie das Verständnis, was die Leute mögen, damit die Entwickler Prioritäten setzen können.

„Es gibt viele potenzielle Produkte, die wir entwickeln können, aber wir müssen wissen, welches die ersten sind, die wir in Angriff nehmen müssen“, erläutert er. Eine effiziente Zeitnutzung sei auch ein Hauptgrund gewesen, sich für Snowflake zu entscheiden: „Es gibt viele Open Source Tools für Big Data Analytics, aber deren Verwaltung kann ein Problem sein.“

Abbildung 1: Vergleich von Operational Data Stores und Data Warehouses.

Zu den Open Source Tools, die er in Betracht gezogen hat, gehören innovative Hadoop-Plattformen. Einige davon hatten aber Nachteile. „Hadoop ist eine wirklich interessante Technologie. Sie ermöglicht viele Dinge, die vorher unmöglich waren. Allerdings ist es unwahrscheinlich, dass ein Team unserer Größe Hadoop-Cluster verwalten möchte“, sagt Eng.

Eng lehnte es ab, sich andere Data Warehouses anzusehen, die in Frage kämen. Er sagt, die Unterstützung für gleichzeitige Abfragen sei letztendlich einer der Hauptgründe gewesen, warum Strava sich für die Snowflake-Plattform entschieden hat.

Klar war jedoch auch, dass die reduzierte Infrastrukturadministration über ein Cloud Data Warehouse eine starke Triebfeder für Stravas Wechsel zu Snowflake war. „Wir wollen nichts haben, was viel Pflege und Betreuung erfordert“, erklärt er.

Probleme mit der Infrastruktur

Sogar für große Unternehmen werden die administrativen Aufgaben, die mit dem Ausbau von Data Warehouses verbunden sind, immer schwieriger, da immer mehr Daten eingehen. Laut dem Analysten Wayne Eckerson wächst deshalb das Interesse an Management Services für Cloud Data Warehouses.

„Sie können den Infrastruktur- und den IT-Support loswerden, Sie müssen nicht monatelang an der Optimierung von Deployments arbeiten und Sie können diese Warehouses nach oben und unten skalieren“, sagt Eckerson, Gründer und Principal Consultant der Eckerson Group. Außerdem „müssen Sie nicht für Spitzenkapazitäten zukaufen.“

Data Warehouses erleben in der Cloud eine Renaissance

Cloud Data Warehouses finden Gefallen bei Teams, die die Verwaltung der Infrastruktur abgeben möchten. Neuere Data-Warehouse-Services übernehmen viele Administrationsaufgaben.

Data-Warehouse-Aufstellung

Data-Warehouse-Training

Probleme mit der Infrastruktur

Erfahren Sie mehr über Big Data

Data Lake: Design, Einsatz und Limits datenzentrierter Speicher

Data Lake

Datentransformation und Datenanalyse mit Data Build Tool

On-Premises versus Cloud Data Warehouses: Vor- und Nachteile