macrovector - Fotolia

Microsoft Azure Data Lake Analytics bekommt Schub durch neue SQL-Variante U-SQL

Die Big-Data-Bewegung hat viele Datenspezialisten ausgeschlossen, die in SQL versiert sind. Die Microsoft-Sprache U-SQL soll sie wieder zurückholen.

Eines der schmutzigen kleinen Geheimnisse von Big Data ist, dass langjährige Datenspezialisten häufig ausgeschlossen werden. Apache Hadoop, Spark und verwandte Big Data Frameworks sind stärker auf Java- und weniger auf SQL-Kenntnisse angewiesen. SQL-Profis bleiben außen vor, seien Spezialisten für Microsoft T-SQL oder andere SQL-Varianten.

Während Microsoft daran festhält, den Azure Cloud Support für Hadoop, Hive, Spark, R und ähnliche Technologien zu verbessern, versucht das Unternehmen auch, T-SQL-Anwendern die Teilnahme an Big Data zu ermöglichen.

Seine Antwort ist U-SQL, einem Dialekt von T-SQL, der disparate Daten verarbeiten soll und C#-Erweiterungen und umgekehrt auch .NET Libraries unterstützt. U-SQL ist aktuell im Rahmen einer Public Preview von Microsoft Azure Data Lake Analytics verfügbar, die im Oktober 2016 veröffentlicht wurde.

U-SQL ist eine Sprache, die bestimmte Abfragen für alle Arten von Daten unterstützt - nicht nur relationale Daten. Die Sprache konzentriert sich auf Erweiterungen des SQL SELECT Statements und ermöglicht skalierbare verteilte Abfragefunktionen. U-SQL wurde im Detail auf dem Data Science Summit vorgestellt, das in Verbindung mit der Microsoft Ignite 2016 stattfand.

Über Hive und Pig hinaus

Die Hadoop Community hat versucht, das Problem mit SQL-Abfragen zu adressieren, indem es SQL-orientierte Query Engines und Sprachen wie Hive und Pig eingefügt hat. Doch es bestand laut Alex Whittles, Gründer des Beratungsdienstes Purple Frog Systems und Microsoft MVP, weiterhin das Bedürfnis nach etwas, das stärker an T-SQL angelehnt ist.

„Viele der Big Data Tools – zum Beispiel MapReduce – stammen aus dem Hadoop-Kontext und neigen dazu, fortgeschrittene Java-Programmierkenntnisse zu erfordern. Tools wie Hive und Pig sollen die Lücke schließen und SQL-Entwicklern das Leben erleichtern“, erläutert Whittles. „Die Tools stammen in ihrer Funktionalität und Ausrichtung aus der Programmiererwelt. Sie sind nicht allzu geeignet für Menschen, deren Aufgabe es ist, eng mit Datenbanken zu arbeiten.“

Das ist ein wichtiger Ansatz, um das Big-Data-System von Microsoft für weitere Datenspezialisten zu öffnen. „U-SQL bietet Daten-Profis einen Zugang zu einer Big-Data-Plattform, ohne zu viel Lernaufwand vorauszusetzen“, sagt der Microsoft MVP. Das ist aus doppelter Sicht wichtig, da die Gruppe der Hive-SQL-Entwickler relativ klein im Vergleich zu SQL-Profis ist.

U-SQL ist aus Sicht von Warner Chaves, SQL Server Principal Consultant bei The Pythian Group und Microsoft MVP, ein Alleinstellungsmerkmal. „Das Feedback, welches ich von Datenbank-Administratoren erhalten habe ist, dass Big Data einschüchternd wirken kann und die Bereitstellung und Verwaltung von Hadoop-Clustern sowie das Erlernen von Tools wie Pig, Hive und Spark erfordert“, sagt er. Einige dieser Probleme werden durch die Microsoft Azure Cloud gelöst – andere durch U-SQL.

„Mit U-SQL ist die Lernkurve für jemanden, der bereits mit SQL arbeitet – nicht nur mit T-SQL – viel kleiner“, ist Chaves überzeugt. „Das ist eine niedrigere Eintrittsbarriere.“ Er fügt außerdem hinzu, dass Microsofts Preispolitik für Cloud Analytics ein zusätzlicher Anreiz für den Einsatz ist. „Azure Data Lake selbst ist in separate Analytics- und Storage-Module gegliedert. Die Anwender müssen nur für Analytics-Verarbeitungsressourcen zahlen, wenn sie diese aufrufen.“

Weitere Big-Data-Angebote

Während Microsoft seine traditionelle T-SQL Entwicklerbasis bedienen möchte, verfolgt das Unternehmen weiterhin das Ziel, die Fähigkeiten für Hive in Azure Data Lake zu erweitern. 

Auf der Strata + Hadoop World in New York stellte der Technologiepartner Hortonworks ein Update von Apache Hive vor, welches nun In-Memory-Fähigkeiten (Live Long and Process, LLAP) und andere architektonische Verbesserung bietet, um Hive-Abfragen zu beschleunigen. Die Version arbeitet mit Microsoft HDInsight zusammen, einer Hortonworks-basierten Hadoop- und Big-Data-Plattform, die ebenfalls zum Azure Data Lake Analytics Portfolio gehört.

U-SQL hat selbst bereits einige Verbesserungen erfahren. Zum Beispiel hat Michael Rys, Principal Program Manager bei Microsoft, auf dem Microsoft Data Science Summit vorgeführt, wie U-SQL erweitert werden kann. Dabei lag der Schwerpunkt seiner Präsentation darauf, wie sich Abfragen in der Programmiersprache R für U-SQL ausführen lassen.

Die Sprache R erfährt immer mehr Unterstützung seit Microsoft Revolution Analytics im Jahr 2015 gekauft hat. Auch wenn die Zahl von R-Programmierern deutlich hinter der Anzahl von SQL-Spezialisten liegt, findet R einen immer größeren Einsatz in neuen Analytics-Applikationen, einschließlich Machine-Learning-Anwendungen.

 

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Erfahren Sie mehr über Big Data

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close