Dieser Artikel ist Teil unseres Guides: Big Data: Anwendung, Datenschutz und Technologie

Das Big-Data-Framework Apache Spark beschleunigt Analytics

Apache Spark bietet eine leistungsfähige Big-Data-Verarbeitung. Vor allem Anwender, die keine ausgewiesenen Big-Data-Experten sind, profitieren davon.

Das verteilte Big-Data-Framework Apache Spark erhält viel Aufmerksamkeit von Data Scientists. Allerdings sind sie die einzigen, die bisher einen Reiz in Apache Spark sahen. Das ändert sich langsam, denn Anwender erkennen einen entscheidenden Vorteil des Frameworks: Geschwindigkeit.

Unternehmen setzen verstärkt auf Self-Service-Analytics-Anwendungen, die sich einfach bedienen lassen. Benutzerfreundlichkeit ist in der Regel der wichtigste Faktor, damit eine Anwendung unternehmensweit eingeführt wird. Auf dem Spark Summit Ende Juni 2015 in San Francisco verwiesen vor allem Early Adopter des Big-Data-Frameworks darauf, dass das größte Verkaufsargument für Spark dessen Geschwindigkeit ist.

„Anwender leben von Iterationen“, sagt Gloria Lau, Vice President bei Timeful, Anbieter eines Planungs-Tools, der kürzlich von Google übernommen wurde. „Sie visualisieren Daten und scheitern wieder. Iteration ist lohnenswert. Sie müssen darauf vertrauen, dass auch normale Anwender dazu in der Lage sind.“

Zwar setzt Apache Spark intensive technische Fähigkeiten voraus, um die Cluster im Backend zu verwalten. Das Frontend der Open-Source-Technologie ist dagegen sehr anwenderfreundlich. Apache Spark bietet eine Spark SQL Library, die Anwendern Tools an die Hand gibt, um eine Vielzahl von Datenquellen abzufragen, darunter SQL, Java und die Analytics-Sprache R. Zugleich können Entwickler noch einfachere Frontend-Anwendungen entwickeln, die auf Spark arbeiten und die vorhandenen Tools nutzen.

In-Memory beschleunigt die Anwendungsgeschwindigkeit

Seit Spark Daten In-Memory (im Arbeitsspeicher) verarbeiten kann, kommt jede Anwendung, die in dieser Umgebung läuft, in den Genuss einer erhöhten Geschwindigkeit. Seine Entwickler werben damit, dass es Daten bis zu 100-mal schneller verarbeitet als MapReduce, der ursprünglichen Datenverarbeitungs-Engine von Hadoop, wenn es Aufgaben In-Memory ausführt.

Mehr zum Thema Lizenz-Management:

Databricks und IBM: Was steckt hinter den Cloudversionen von Apache Spark?

Welchen Mehrwert die Integration zwischen SAP HANA und Apache Spark bringt.

Neue Big-Data-Technologie: Apache Spark 1.0 soll Leistungsschub bringen.

Lau verweist darauf, dass der Geschwindigkeitszuwachs für weniger technisch versierte Anwender zum Verkaufsargument wird. Der typische Datenkonsument ist nicht daran interessiert, eine Aufgabe auszuführen, die zehn Minuten dauert. Sie wollen Abfrage-Services wie Google, die ihnen Antworten in Echtzeit bieten.

„Anwender wollen, dass Daten demokratisiert werden“, sagt Lau. „Man möchte, dass jeder Zugriff auf die Daten hat und eigene Erkenntnisse daraus gewinnt. Geschwindigkeit ist dabei das einzige, worum man sich kümmern muss.“

Brian Kursar, Senior Data Scientist bei Toyota, sagt, dass die Geschwindigkeit von Apache Spark ihm und seinem Team dabei geholfen habe, einfach verständliche Reports zu entwickeln, die die Wahrnehmung der Marke Toyota in sozialen Netzwerken quantifiziert. Kursar und seine Mitarbeiter haben eine Anwendung auf Basis maschinellen Lernens entwickelt, die auf den Algorithmen der Machine Learning Library (MLlib) von Spark basiert. Es dauerte allerdings einige Iterationen, bevor sie etwas fanden, das sehr genau war.

Die Möglichkeit, diesen Prozess schnell abzuschließen und ein sehr genaues Ergebnis abzuliefern, spielte eine entscheidende Rolle, um die Unternehmensleitung davon zu überzeugen, das Projekt zu unterstützen und die Ergebnisse zu verwenden, erläutert der Data Scientist.

„Wenn man an einem Produkt arbeitet, das die Genauigkeit eines Modells verbessern soll, ist man vor allem dadurch limitiert, dass man nicht die benötigte Rechenleistung und Geschwindigkeit hat“, so Kursar.

NASA verwendet Apache Spark für Datenzugriff

Chris Mattmann, Chefarchitekt des NASA Jet Propulsion Laboratory, erläutert im Gespräch, dass er und sein Team derzeit daran arbeiten, ein Datenverarbeitungssystem basierend auf Spark zu entwickeln, das Wissenschaftlern den Zugriff auf Daten aus unterschiedlichen Datensystemen bietet.

Viele der wissenschaftlichen Daten, die von der NASA und ihren Partnern erstellt wurden, sind in entfernten Daten- und Dateiensystemen gespeichert, die spezifisch für die jeweilige Wissenschaftsgemeinde sind, aber nur einen erschwerten Zugriff mit gemeinsamen Tools erlauben. Hinzu kommt, dass Forscher, die auf aktuelle Datenspeicher zugreifen können, nur schwer die entsprechenden Daten verarbeiten können, da jede Abfrage Daten aus den individuellen Datenspeichern ziehen muss. Dabei wird nichts im Arbeitsspeicher vorgehalten.

Die In-Memory-Verarbeitungsfähigkeiten von Apache Spark bieten den einzelnen Forschungsabteilungen dagegen einen schnellen Zugriff, unabhängig vom verwendeten Frontend-Tool.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close