Dieser Artikel ist Teil unseres Guides: Big Data: Anwendung, Datenschutz und Technologie

Big-Data-Management mit der Hadoop-Distribution von Hortonworks

Die Hortonworks Data Platform (HDP) besteht aus Anwendungen der Apache Software Foundation und bietet Funktionen für Datenerfassung und -analyse.

Die Hortonworks Data Platform (HDP) ermöglicht Anwendern das Speichern, Verarbeiten und Analysieren großer Datenmengen aus verschiedenen Quellen und in verschiedenen Formaten. In ihrem Kern enthält die skalierbare Open Source Hadoop-Plattform das Hadoop Distributed File System (HDFS), ein fehlertolerantes Storage-System für die Verarbeitung großer Datenmengen in einer Vielzahl von Formaten und YARN.

Yet Another Resource Negotiator, kurz YARN, ein Bestandteil von Hadoop, stellt ein zentrales Ressourcen-Management für Datenverarbeitungs-Workloads in Hadoop bereit. Es bietet verschiedene Verarbeitungsmethoden, inklusive interaktives SQL, Echtzeit-Streaming, Data Science und Stapelverarbeitung. Zu den weiteren Enterprise-Features gehören Funktionen für Data Governance, Security und allgemeine Transaktionen.

Mit dem jüngsten Release, Version 2.4, hat Hortonworks gezeigt, dass es häufiger neue Versionen als Teil seiner Extended HDP Services veröffentlicht. Damit erhalten Kunden Zugang zu häufigeren Releases und Weiterentwicklungen von Modulen, die nicht Kern der Hadoop-Distribution sind, zum Beispiel Hive, HBase, Storm und Spark.

HDP Kernmodule, zu denen HDFS, YARN und MapReduce gehören, werden weiterhin als jährliches Release veröffentlicht und orientieren sich mit der Open Data Platform Initiative an der Kernversion der Apache Software Foundation.

Dieser Ansatz ermöglicht es Kunden, die Hadoop-Kernmodule für kritische Funktionen wie die Datenspeicherung verwenden, auf stabilere Kernmodule zu setzen. Gleichzeitig bietet der Ansatz häufigere Releases für Kunden, die an den Vorteilen der sich schnell entwickelnden Hadoop-Module interessiert sind.

Im Einzelnen enthält HDP 2.4 Apache Hadoop 2.7.1 (Core HDP-Module) sowie Spark 1.6, HBase 1.1.2, Kafka 0.9.0 und Ambari 2.2.1 als Extended HDP Services.

Hortonworks DataFlow (HDF), welches als separates Produkt erhältlich ist, arbeitet mit HDP zusammen und wurde entwickelt, um Herausforderungen bei der Automatisierung aller Arten von Echtzeit-Datenprozessen zu stemmen. Darüber hinaus hilft die Anwendung beim Sammeln und Verwalten von Geschäftserkenntnissen und Prozessen, die sich aus den verschiedenen Daten ableiten.

Das Produkt wird im Rahmen des Open-Source-Projekts Apache NiFi vorangetrieben, das sich den Herausforderungen des Internet of Anything (IoAT) widmet. Im Gegensatz zum Internet of Things (IoT), das lediglich mit Sensor- und Maschinendaten verknüpft ist, enthält IoAT auch Clickstream- und Social-Stream-Daten.

Hortonworks bietet für seine Hadoop-Distribution drei Installationsoptionen:

  • Hortonworks Sandbox on a VM ist eine virtuelle Umgebung, die auf einem Mac-OSX- oder Windows-System in einer VMWare- oder VirtualBox-Umgebung arbeitet. Die Option bietet eine individuelle Hadoop-Umgebung für Prototyping- und Trainingszwecke.
  • Hortonworks Sandbox in the Cloud ist eine Cloud-basierte Implementierung, die aktuell innerhalb von Microsoft Azure verfügbar ist und für einen Monat kostenlos getestet werden kann.
  • HDP 2.4 Ready for the Enterprise bietet eine automatische Installation für Linux- und Unix-Umgebungen mit Ambari (Version 2.2). Zu den weiteren Optionen zählen eine manuelle Installation mit dem RPM Package Manager für Unix- und Linux-Umgebungen, eine Cloud-Installation über Cloudbreak für Azure sowie eine Windows-Installation (Windows Server 2008 und 2012) innerhalb von Amazon Web Services (AWS) oder OpenStack.

Mehr zum Thema Apache Hadoop:

Big-Data-Management mit der Hadoop-Distribution von MapR.

Big-Data-Management und Analytics mit IBM BigInsights und Apache Hadoop.

Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.

Hadoop-Cluster bieten Spreadmarts und Analytics eines neues Zuhause.

Hadoop 2 bietet für Big-Data-Umgebungen eine bessere Analytics-Verarbeitung.

Lizenzierung und Support für Hortonworks Data Platform

Abgesehen von optionalen Add-ons und Komponenten von Drittanbietern, unterliegen die Komponenten der Hortonworks Data Platform der Apache-Lizenz 2.0.

Hortonworks Hadoop bietet drei Support-Subskriptionsoptionen, die den gesamten Lebenszyklus – vom Proof-of-Concept bis zum Live-Betrieb – abdecken sollen:

HDP Jumpstart ist für die Frühphase der Datenentwicklungsarbeit gedacht. Die Option bietet sechsmonatigen Support für drei namentlich bekannte Kontakte während normaler Geschäftszeiten. Die Antwortzeit für alle Schweregrade beträgt einen Werktag.

HDP Enterprise ist für den geschäftskritischen operativen Support vorgesehen. Die Option stattet namentlich bekannte Kontakte mit einem einjährigen Support aus, abhängig von der Cluster-Größe. Der Support ist 24/7 per Web oder Telefon verfügbar. Die Antwortzeit beträgt bei Schweregrad 1 eine Stunde, bei Schweregrad zwei vier Stunden, bei Schweregrad 3 acht Stunden und bei Schwergrad 4 einen Werktag.

HDP Enterprise Plus bietet das gleiche Support-Level wie HDP Enterprise, beinhaltet darüber hinaus aber auch den Support für Module, die nicht durch HDP Enterprise abgedeckt sind: Accumulo, Atlas, Storm, Ranger, Spark, Kafka und Cloudbreak.

HDP Enterprise Premier Support bietet für Kunden einen lokalen und individuellen Support. Premier Support ist nur für Kunden mit bestehendem Enterprise-Support für HDP oder HDP verfügbar.

Für Preisinformationen zu den einzelnen Optionen sollten Interessenten direkt Hortonworks kontaktieren.

Über den Autor:
Abie Reifer ist Principal Analyst bei DecisionWorx und leitet den Bereich Datenerhebung und Forschung. Vorher arbeitete Reifer als CTO sowie Strategieberater bei einem internationalen Telekommunikationsunternehmen.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close