WavebreakmediaMicro - Fotolia

Apache Spark: Anbieter-Support versus eigene Updates und Bereitstellung

Spark-Nutzer stehen vor einem Dilemma: Sollen sie auf einen Anbieter setzen oder eine neue Version mit aktuellen Funktionen selbst implementieren?

Das FinTech Novantas erhält die Datenverarbeitungs-Engine Apache Spark als Teil einer kommerziellen Hadoop-Distribution. Doch das bindet die analytischen Fähigkeiten und bereitgestellte Anwendungen an das Spark Release, welches das Unternehmen innerhalb seines Hadoop Bundles erhalten hat, und das von seinem Anbieter Coudera unterstützt wird. Als Resultat erhält das Unternehmen nicht zwangsläufig einen sofortigen Zugriff auf neue Spark-Funktionen.

Novantas setzt zum Beispiel Spark 1.4 in einer Hadoop-basierten Anwendung an, die das Unternehmen Anfang 2016 entwickelt hat, um Analytics-Teams bei Banken zu unterstützen, relevante Kunden und Finanzdaten in internen Systemen zu finden. Das Release, welches die Apache Software Foundation im Juni 2015 herausbrachte, wurde im Januar 2016 durch Version 1.6 und im Juli 2016 durch Spark 2.0 abgelöst. Seit Oktober ist Version 2.0.1 verfügbar. Doch um ein Upgrade machen zu können, müsste Novantas den Spark Support über Cloudera aufgeben – und das ist etwas, was das Unternehmen auf keinen Fall anstrebt.

„Wir möchten keine Version verwenden, die nicht unterstützt wird“, sagt Kaushik Deka, CTO der Technologieeinheit von Novantas Solutions. Der Grund ist vor allem, dass die Anwendung der erste Vorstoß in die Welt von Hadoop und Spark ist. Das Festhalten an Spark 1.4 ist für Novantas nicht ideal. Deka sagt, dass einige Aspekte noch relativ oberflächlich sind, allerdings hofft er, dass die Probleme von Spark 1.4 gelöst sein werden, wenn Novantas auf eine neuere Version aktualisiert.

Solche Überlegungen sind in Big-Data-Umgebungen üblich, die in der Regel Open-Source-Technologien enthalten, welche in einem rasanten Tempo aktualisiert werden. Die Situation ist besonders akut bei Spark. Insgesamt wurden 18 Releases zwischen Juli 2014 und Juli 2016, als Spark 2.0 allgemein verfügbar gemacht wurde, veröffentlicht.

Um zu verhindern, hinter die neuen Features zurückzufallen, verzichten einige Organisationen auf den Spark-Support durch einen Anbieter und stellen die Basissoftware von Apache Spark auf eigene Faust bereit.

Synchronoss Technologies bezog zum Beispiel 2014 Spark vom Hadoop-Anbieter MapR Technologies – zunächst durch Razorsight, welches Synchronoss ein Jahr später übernahm. Doch nach Angaben von Suren Nathan, Senior Director Big Data Analytics Platforms beim Mobility-Management-Unternehmen, hat Synchronoss in einigen Fällen direkt auf eine neue Version von Apache Spark aktualisiert, um gewünschte Funktionen zu erhalten. „Inzwischen ist mein Team versiert beim Einsatz von Apache Spark“, sagt er.

Mehr zum Thema Apache Spark:

SAP HANA Vora: Die Engine setzt Expertise für Apache Hadoop und Spark voraus.

MapR bringt eigene Apache-Spark-Distribution auf den Markt.

MapReduce versus Spark: Wer macht das Rennen in der Cloud?

Kostenloses E-Handbook: Datenanalyse und Daten-Management mit Apache Spark.

Auch Webtrends verwendet eine eigene Basisversion von Spark. „Wir versuchen so aktuell wie möglich bei den Releases zu sein“, sagt Peter Crossley, CTO beim Activity-Tracking- und Analytics-Anbieter. „Es gibt nichts vergleichbares am Markt, dass so schnell arbeitet wie diese Technologie.“

Letztlich sagt Crossley allerdings, dass er eine Spark-Version mit Support durch Hortonworks, seinem Hadoop-Anbieter, bervorzugen würde. Um das zu ermöglichen, arbeitete sein Team mit Hortonworks an einem zweigleisigen Release-Plan, den der Anbieter im März 2016 angenommen hat, um die Auslieferung von Spark und mehrere andere Big-Data-Technologien, die mit Hadoop verbunden sind, zu beschleunigen.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Erfahren Sie mehr über Datenverwaltung

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close