magmac83 - Fotolia

Neue Tools bieten einen besseren Einblick in das Management von Hadoop-Clustern

Der Betrieb eines eigenen Hadoop-Clusters ist nichts für schwache Nerven. Neue Tools bieten bessere Einblicke in das Management der Hadoop-Cluster.

Die Komponentenvielfalt eines Hadoop-Ökosystems ist eine der Stärken des Big-Data-Frameworks, aber gleichzeitig auch eine seiner Schwächen: Entwickler erhalten ein Streaming Framework, einen spaltenbasierten Data Store und andere Feature für praktisch jede Art von Big-Data-Verarbeitung. Damit die einzelnen Bausteine allerdings zusammenarbeiten, steht man vor einigen Problemen.

Auf unterschiedliche Art können mehrere neue Hadoop-Management-Tools diese Herausforderungen abmildern. Zu diesen gehört ein Automatisierungs-Tool von BlueData Software, eine Open-Source-Diagnosesoftware, die von LinkedIn entwickelt wurde, und die Apache Ambari-Erweiterung von Hortonworks, welche die Funktionsweise der operierenden Hadoop-Cluster besser visualisiert.

Der Bedarf an Management-Tools ist am größten, wenn ein Hadoop-System in den Produktivbetrieb geht. Das bedeutet häufig, dass einmalige Hadoop-Prozesse auf ein zentrales Cluster verschoben werden, um mit anderen Teilprozessen zusammenzuarbeiten, typischerweise eine Vielzahl von Hadoop-Komponenten, die auf einem einzigen System gehostet werden. Das Einrichten verschiedener Konfigurationen und die Zuweisung von priorisierten Verarbeitungsprozesse ist dabei einer der schwierigsten Aufgaben.

Das Start-up BlueData möchte mit seiner Softwareplattform Elastic Private Instant Clusters (EPIC) diese Aufgabe erleichtern. Die Software unterstützt die Processing Engine von Apache Spark sowie die Hadoop-Distributionen von Cloudera und Hortonworks. Darüber hinaus verwendet die BlueData-Plattform Docker Container, die eine Applikation und zugehörige Software als eigenständige Einheit verpacken, um einen Multi-Tenant-Ansatz für den Einsatz von Hadoop zu gewährleisten.

Die Geburt von BlueData

BlueData zielt mit seiner Lösung auf verschiedene Probleme ab. Dazu gehören auch die im März veröffentlichten Funktionen, die eine Allokation von Prozessprioritäten für Hadoop Jobs basierend auf Quality-of-Service-Richtlinien und die Durchsetzung von Quoten für eine Multi-Tenant-Umgebung erlauben.

„Hadoop hat einige Konfigurationsprobleme verursacht. Ich musste viel zusammenbasteln“, sagt Shannon Quinn, Assistenzprofessor für Informatik an der University of Georgia. Quinn arbeitet mit Studenten zusammen, die eine Hadoop-Umgebung als Teil eines Forschungsprojekts erstellen. Seine Forschungsarbeit beinhaltet die Verwendung von Hadoop, um groß angelegte Studien über Mustererkennung zu unterstützen, die verschiedene Datentypen integrieren, einschließlich Twitter-Daten.

Quinn verwendet EPIC im Rahmen eines Proof-of-Concept-Projekts und ist mit den Ergebnissen bisher zufrieden: „Wir können einzelne Aufgaben mittlerweile in eigene virtuelle Pools aufteilen, wo wir Prioritäten setzen können.“

Ein Vorteil, den er in der Nutzung von Containern sieht, ist, dass sie einen deutlich leichteren Software-Stack bieten. Quinn ist in der Lage, mit den Tools von BlueData zu arbeiten, um seine eigenen Container hochzufahren. Während diese Art von Arbeit noch ein tiefes technisches Verständnis erfordert, ist Quinn aber auch davon überzeugt, dass BlueData die Anforderungen an Entwickler erleichtert.

Für ihn sind Kosten eines der Themen, das adressiert werden muss, wenn es um den Übergang von der Proof-of-Concept-Phase in den Produktivbetrieb geht. Quinn beurteilt die Wirtschaftlichkeit von BlueData besser ein als den Einsatz von Tools in der AWS-Cloud. Allerdings muss auch Quinn andere Forscher für das Projekt gewinnen, um die Kosten für den Produktivbetrieb zu stemmen. Derzeit kostet BlueData EPIC Enterprise jährlich 500 Dollar pro physischer Prozessorkern.

Die Latenz ist laut Quinn verglichen mit dem Betrieb innerhalb der Amazon Hadoop-Plattform Elastic MapReduce besser. „Im Vergleich zu AWS ist es allgemein schneller. Bei AWS ist es Glückssache, denn sie können zwar die Leistung für eine Region garantieren, doch das ist auch schon alles.“

Bei Hadoop wie auch anderen Technologien kann der Sprung von der Entwicklungsphase in den operativen Betrieb mit großen Problemen verbunden sein. Ein Problem ist das Feintuning der Jobs, um sicherzustellen, dass sie nicht um Ressourcen auf dem Hadoop-Cluster konkurrieren.

Dr. Elephant überwacht die Performance

Data Scientists und Data Engineers bei LinkedIn sind häufig mit dem Problem konfrontiert, Performance-Probleme mühsam aufzuspüren, wenn Jobs, die sie geschrieben haben, regulär in der Produktion laufen, sagt Carl Steinbach, Leiter des Hadoop-Entwicklungsteams bei LinkedIn.

„Die effektive Ausführung der Prozesse kann aufgrund der vielen Hadoop-Komponenten eine schwierige Aufgabe sein“, so Steinbach. Er verweist zum Beispiel auf Apache Pig, HBase, Spark und MapReduce. Das Komponenten-Wirrwarr aus virtuellen Anfragen und Tools muss korrekt kombiniert werden, so dass alles am Ende richtig ausgeführt wird.

„Hadoop ist ein mächtiges Werkzeug, doch aus Anwenderperspektive kann es eine echte Herausforderung sein“, sagt Steinbach. „Wenn Sie die einzelnen Features mögen, gibt ihn Hadoop mehr an die Hand, als sie jemals haben möchten.“

Für einige Zeit hat LinkedIn Verarbeitungsabläufe in Hadoop selbst analysiert und seine Entwickler angewiesen, wie sie diese verbessern sollen. Doch da Hadoop immer häufiger zum Einsatz kommt, wird das schwieriger. LinkedIn hat daher ein Performance Monitoring und Tuning Tools entwickelt, das diesen Prozess automatisiert. In Anspielung an das Hadoop-Maskottchen haben sie es Dr. Elephant genannt.

Ein Hadoop-Cluster überwachen

Dr. Elephant wurde extra für die Hadoop-Bereitstellung entwickelt und überwacht alle Verarbeitungsaktivitäten. Das Tool bietet Data Scientists und anderen Anwendern Vorschläge, wie sie Hadoop-Aufgaben so abstimmen könne, dass sie im Data Center ohne Problem laufen.

„Es funktioniert ähnlich wie die medizinische Analogie“, sagt Steinbach. „Sie gehen zu einer Untersuchung. Blutproben werden zum Labor geschickt. Findet man heraus, dass Sie hohen Blutdruck haben, wird man Ihnen erzählen, dass Sie weniger Salz verspeisen sollen und gibt Ihnen Medikamente dagegen.“

Dr. Elephant funktioniert ähnlich. Jobs, die auf einem Cluster laufen, erstellen Protokolle und Metriken. Die Software ruft diese Daten auf dem Hadoop-Cluster aus dem YARN Ressourcen-Manager auf und untersucht, wie gut die Jobs laufen. Die daraus resultierenden Informationen werden dem Eigentümer der Hadoop Jobs über visuelle Dashboards zur Verfügung gestellt.

LinkedIn hat den Code von Dr. Elephant im April als Open-Source-Projekt unter einer Apache 2.0-Lizenz zur Verfügung gestellt. Für künftige Releases erwartet Steinbach dadurch eine bessere Spark-Integration und Visualisierung der Ressourcennutzung sowie Heuristik-Updates.

Mehr zum Thema Hadoop:

SQL-on-Hadoop bietet für Analytics zahlreiche neue Möglichkeiten.

Big-Data-Management mit dem Hadoop-Framework in Amazon Elastic MapReduce (EMR).

Big-Data-Management mit der Hadoop-Distribution von Hortonworks.

Big-Data-Management mit der Hadoop-Distribution von MapR.

Big-Data-Management und Analytics mit IBM BigInsights und Apache Hadoop.

Hadoop Management-Metriken visualisieren

Auch Ambari, ein Open Source Hadoop Management-Tool von Hortonworks, wurde überarbeitet und bietet neue Dashboards und Datenvisualisierungen. Das Release Amabri 2.2.2 enthält vorgefertigte Dashboards, die Hadoop-System-Administratoren visualisierte Ansichten der Ressourcennutzung über verschiedene Cluster hinweg sowie Metriken über den Zustand der Cluster anzeigen.

Die in den Dashboards abgebildeten Informationen sollen laut Matthew Morgan, Vice President Product und Alliance Marketing bei Hortonworks, die Fähigkeit verbessern, große Cluster per Ambari zu überwachen und managen.

Hortonworks arbeitet außerdem daran, Atlas und Ranger zu integrieren. Dahinter verbergen sich Open-Source-Technologien, die jeweils Fähigkeiten für Data Governance und die Sicherheitsverwaltung bieten. Die Verknüpfung soll es IT-Teams ermöglichen, Daten anhand von Metadaten-Tags in Atlas zu klassifizieren, um auf Basis dieser Tags Datenzugriffrichtlinien in Ranger zu erzwingen.

Hortonworks, LinkedIn und BlueData sind aber nicht allein in ihren Bemühungen, für mehr Klarheit bei der Big-Data-Administration der Hadoop-Cluster zu sorgen. Der Hortonworks-Konkurrent Cloudera hat ebenfalls eine aktualisierte Version seines Cloudera Managers veröffentlicht, der bessere Einsichten in die Workload-Aktivitäten von Hadoop ermöglichen soll. Schließlich hat das Startup Pepperdata einen Hadoop-Cluster-Manager entwickelt, der selbsteinstellende Workloads unterstützt.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Erfahren Sie mehr über Datenverwaltung

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close