dima_sidelnikov - stock.adobe.co

In vielen Firmen gibt es auch in Zukunft Data Warehouses

Mit Data Lakehouse und SQL Analytics bietet Databricks zwei Anwendungen für die Datenanalyse an. Joel Minnick von Databricks erklärt im Interview, was Anwender damit erreichen.

Data Warehouses als zentrale Datenbanksysteme für Datenanalysen haben sich für viele Unternehmen bewährt. Aufgrund der anwachsenden Mengen unstrukturierter Daten und neuer Big-Data-Technologien gerieten Data-Warehouse-Anwendungen allerdings ins Hintertreffen. Data-Lake-Lösungen sollten die Lücke schließen und Data Warehouses ergänzen, indem sie zahlreiche Datenformate unterstützen und auch unstrukturierte Datensätze verarbeiten.

Databricks kombiniert mit seinem Data Lakehouse beide Welten. Die Plattform soll sowohl unstrukturierte als auch strukturierte Datenformate beherrschen und für Business-Intelligence- und Machine-Learning-Anwendungsfälle zur Verfügung stellen. Im Interview erklärt Joel Minnick von Databricks die Technologie. Zudem geht er auf das neue Produkt des Datenspezialisten, SQL Analytics, ein, und beschreibt, wie es die Data-Lakehouse-Architektur ergänzt.

Als Vice President Product Marketing bei Databricks verantwortet Joel Minnick die globale Marketing- und Implementierungsstrategie des Anbieters. Im Laufe seiner knapp 20-jährigen Karriere hat Minnick eine Vielzahl von Technologie- und Marketing-Herausforderungen überwunden, darunter den Eintritt von Microsoft in den Virtualisierungsmarkt, den Aufbau der Partner-, Unternehmens- und Produktmarketing-Organisationen von AWS, und die Entwicklung des Machine-Learning-Geschäfts von AWS.

Data Warehouse und Data Lake sind etablierte Begriffe im Datenmanagement. Databricks wirbt nun für ein Data Lakehouse. Was steckt dahinter und wie unterscheidet es sich von Data Warehouses und Data Lakes?

Joel Minnick: Wir haben den Wechsel zu einer Lakehouse-Architektur schon lange kommen sehen, da die Bedürfnisse der Kunden in den Bereichen Analytics und künstlicher Intelligenz sich annähern und ihre derzeitige Architektur zu kompliziert war, um Schritt zu halten.

In der Vergangenheit mussten Kunden proprietäre Data Warehouses für Business-Intelligence-Anwendungen und Data Lakes für Data Science und Machine Learning Workloads pflegen, oft über mehrere Cloud-Plattformen hinweg. Dies führte zu einer komplizierten, teuren Architektur, die die Fähigkeit der Kunden, Nutzen aus ihren Daten zu ziehen, verlangsamt.

Das Lakehouse ist die ideale Datenarchitektur für datengesteuerte Unternehmen. Sie baut auf den besten Eigenschaften von Data Warehouses und Data Lakes auf, um eine einzige, auf einem Data Lake basierende Architektur für alle wichtigen Anwendungsfälle von Streaming-Analysen bis hin zu Business Intelligence, Data Science und künstlicher Intelligenz bereitzustellen.

Für welche Anwendungsszenarien ist das Data Lakehouse geeignet? Wer sind die Anwender?

Minnick: Die Einführung von SQL Analytics diesen Monat ermöglicht es Datenanalysten, Workloads, die zuvor für ein Data Warehouse bestimmt waren, auf einem Data Lake durchzuführen. Dadurch wird der traditionelle Umfang des Data Lakes von der Data Science und dem maschinellen Lernen auf alle Daten-Workloads einschließlich BI und SQL ausgeweitet, so dass Unternehmen jetzt alle Daten-Teamrollen aus den Bereichen Data Engineering, Data Science und Data Analytics in die Lage versetzen können, auf einer einzigen Datenplattform zu arbeiten.

Mit SQL Analytics lassen sich Analysen direkt in einem Data Lake durchführen. Wie funktioniert die Lösung und für welche Analysen ist sie geeignet?

Minnick: SQL Analytics ist das letzte Stück des Lakehouse-Puzzles. Wie wir bereits sagten, ermöglicht die Einführung von SQL Analytics Datenanalysten, Workloads, die zuvor für ein Data Warehouse bestimmt waren, auf einem Data Lake durchzuführen.

Dadurch wird der traditionelle Umfang des Data Lakes von Data Science und maschinellem Lernen auf alle Data-Workloads einschließlich BI und SQL erweitert. Mit dieser Ankündigung ist es Databricks möglich, Data Warehousing Performance zu Data-Lake-Kosten mit einem bis zu neunmal besserem Preis-Leistungs-Verhältnis als herkömmliche Cloud Data Warehouses anzubieten.

Macht dies klassische Data-Warehouse-Lösungen überflüssig?

Minnick: Das ist eher Unwahrscheinlich. In vielen Organisationen gibt es heute und morgen einen Platz für Data Warehouses. Aber Unternehmen haben heute riesige Datenmengen in ihren Data Lakes und wir möchten, dass sie diese abfragen und daraus Nutzen ziehen können, entweder mit den BI-Tools, die sie heute verwenden, wie Tableau und Microsoft Power BI, oder mit unserem SQL Analytics Service.

Joel Minnick, Databricks

„Wir denken, dass die natürliche Angleichung der Stärken des Data Lakes an die Ziele der Kunden rund um Machine Learning den Data Lake zum Schwerpunkt der meisten Unternehmen machen wird.“

Joel Minnick, Databricks

Durch das Errichten eines Lakeshouses können Unternehmen wesentlich mehr Workloads auf dem Data Lake halten, ihre Datenarchitektur vereinfachen, ihre Kosten senken und ihre Entscheidungsfindung beschleunigen.

Langfristig werden Data Analytics, Data Science und maschinelles Lernen weiterhin konvergieren. Wir denken, dass die natürliche Angleichung der Stärken des Data Lakes an die Ziele der Kunden rund um Machine Learning den Data Lake zum Schwerpunkt der meisten Unternehmen machen wird.

Mit welchen Technologiepartnern arbeitet Databricks zusammen?

Minnick: Die Lakehouse-Architektur wird von den Databricks-Partnern umfassend unterstützt. Zu unseren BI-Partnern zählen Tableau, Qlik, Looker und Thoughtspot. Ingest-Partner sind Fivetran, Fishtown Analytics, Talend und Matillion. Im Data-Catalog-Bereich arbeiten wir mit Collibra und Alation zusammen. Unsere Consulting-Partner sind Slalom, Thorogood und Advancing Analytics.

Welche Preismodelle bietet Databricks für die einzelnen Cloud-Angebote an? Wie viel kostet die Nutzung der Plattform?

Minnick: Databricks berechnet SQL Analytics zu einem Satz von 15 US-Dollar pro DBU [Anm. Databricks Unit].

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close