Sergey Nivens - stock.adobe.com

Cloudera, AWS, Azure und Co.: Hadoop-Distributionen bewerten

Welches sind die wichtigsten Merkmale, die man bei Hadoop-Distributionen bewertet? Wir stellen vier Punkte vor, die vor einem Abonnement oder Integration zu beachten sind.

Obwohl die meisten Softwarekomponenten, die ein Hadoop-Ökosystem ausmachen, Open-Source-Technologien sind, gibt es zahlreiche Vorteile, wenn man einen Anbieter für ein Abonnement bezahlt, um eine kommerzielle Hadoop-Plattform zu nutzen.

So bietet ein Abonnement zum Beispiel technischen Support und Schulungen sowie Zugriff auf Unternehmensfunktionen, die der Open Source Community nicht zur Verfügung stehen. Während die Enterprise-Hadoop-Distributionen der Anbieter alle Kernkomponenten des Ökosystems bereitstellen, liegen die Hauptunterscheidungsmerkmale darin, was diese Anbieter über die offen zugängliche Funktionalität hinaus zur Verfügung stellen.

Die Veränderungen auf dem Markt haben die Reihen der Hadoop-Anbieter gelichtet. So zog Pivotal Software im Jahr 2016 den Stecker seiner eigenen Hadoop-Distribution und kündigte an, stattdessen die Hortonworks Data Platform (HDP) zu vertreiben. IBM tat dasselbe ein Jahr später. Im Jahr 2018 kaufte Cloudera Inc. den ehemaligen Erzrivalen Hortonworks. MapR Technologies, einer der Pioniere im Big-Data-Markt, wurde 2019 wiederum von Hewlett Packard Enterprise (HPE) übernommen.

Doch es gibt immer noch eine Gruppe von Anbietern, die es zu berücksichtigen gilt, darunter Cloudera sowie die drei führenden Cloud-Plattform-Anbieter: AWS, Microsoft und Google. Um die Dinge noch komplizierter zu machen, hat Cloudera 2019 ein einheitliches Angebot ausgerollt, das die Funktionen von Cloudera Distributed Hadoop (CDH) und Hortonworks Data Platform (HDP) in der Cloudera Data Platform (CDP) kombiniert.

Um den richtigen Hadoop-Anbieter zu ermitteln, muss ein Unternehmen in der Lage sein, Hadoop-Distributionen bestimmter Anbieter auf der Grundlage mehrerer Schlüsselmerkmale vergleichen zu können, darunter Bereitstellungsmodelle, Sicherheits- und Datensicherheitsfunktionen sowie Support-Leistungen.

Beachten Sie, dass das Hadoop-Ökosystem zwar darauf ausgelegt ist, skalierbare Datenspeicherung und verteiltes Hochleistungs-Computing zu unterstützen, die tatsächliche Leistung jedoch aus verschiedenen Gründen variieren kann, unter anderem aufgrund der Softwareimplementierung. Viele Performance-Probleme hängen jedoch von den geplanten Anwendungen selbst ab. Um dies zu berücksichtigen, sollten Käufer prüfen, wie die Hadoop-Distributionen auf die geschäftlichen Anforderungen der Anwenderunternehmen ausgerichtet sind.

1. Bereitstellungsmodelle

Die Hadoop-Angebote von AWS, Microsoft und Google werden ausschließlich in Cloud-Umgebungen eingesetzt. AWS verwendet Elastic Compute Cloud (EC2), den zentralen Teil der Cloud-Computing-Plattform, und Simple Storage Service (S3) als Grundlage für Amazon Elastic MapReduce (EMR), das seine Hadoop-Distribution mit der Spark-Verarbeitungs-Engine und verschiedenen anderen Big-Data-Tools und -Technologien bündelt.

Microsoft nutzt seine Azure-Cloud-Infrastruktur für den Big-Data-Service HDInsight. Ebenso bietet Google einen verwalteten Service auf seiner Cloud-Plattform namens Google Cloud Dataproc an. Der Service basiert auf den Open-Source-Versionen von Hadoop und Spark.

Das Cloud-Bereitstellungsmodell bietet eine schnelle und dennoch aufwandsarme Möglichkeit zur Bereitstellung eines Hadoop-Clusters. AWS, Microsoft und Google ermöglichen es den Benutzern, ihre Umgebungen bei Bedarf zu skalieren, um dynamische Anforderungen an die Rechen- und Speicherkapazität zu erfüllen. Diese Elastizität ist für Unternehmen mit Rechen- und Speicheranforderungen, die sich im Laufe der Zeit ändern, wünschenswert.

Cloudera bietet zwar auch eine Cloud-Bereitstellung an, ist aber nicht auf dieses Modell beschränkt. Der Anbieter ermöglicht es Benutzern, Distributionen herunterzuladen, die vor Ort oder in einer Private Cloud auf einer Vielzahl von Servern, einschließlich Linux- und Windows-Systemen, eingesetzt werden können. Cloudera stellt auch Sandbox-Versionen zur Verfügung, die in einer virtuellen Umgebung wie VMware laufen können.

Die Quintessenz: Überlegen Sie, ob Ihr Unternehmen seine Big-Data-Umgebung lieber intern verwalten oder einen Managed-Service nutzen möchte. Die interne Verwaltung beinhaltet die Überwachung und Wartung der Softwareumgebung sowie die kontinuierliche Überwachung des Systems, unabhängig davon, ob es sich bei der Umgebung um eine physische Plattform vor Ort oder einen Cluster handelt, der in der Cloud läuft. Die On-Premises-Option kann praktisch sein, wenn das Unternehmen über erfahrenes IT-Personal verfügt, das die richtigen Größenmerkmale des Systems kennt, oder wenn Sicherheitsbedenken die Verwaltung des Systems hinter einer vertrauenswürdigen Firewall rechtfertigen.

Die Alternative ist die Nutzung eines Anbieters mit einer gehosteten Serviceplattform, die bei der Konfiguration, Inbetriebnahme, Verwaltung und Überwachung des Betriebs hilft. Dies ist vorzuziehen, wenn das Unternehmen nicht sicher ist, welche Systemgröße es benötigt, oder wenn es erwartet, dass die benötigte Systemgröße aufgrund der sich ändernden Nachfrage schwankt. Der Vorteil der Zusammenarbeit mit einem Cloud- oder Managed-Service ist, dass er die nötige Elastizität sowohl für Speicher- als auch für Verarbeitungsressourcen bietet.

2. Funktionen

Vor dem Zusammenschluss von Cloudera und Hortonworks sowie der Übernahme von MapR durch HPE gab es einige bemerkenswerte Unterschiede in den Entwicklungsansätzen der Anbieter.

Cloudera ergänzte den Hadoop-Kern oft mit intern entwickelten Add-on-Technologien – zum Beispiel mit der Impala SQL-on-Hadoop-Abfrage-Engine, den Administrations-Tools des Cloudera Manager und Kudu, einem alternativen Datenspeicher zum Hadoop Distributed File System (HDFS) für den Einsatz in Echtzeit-Analyse-Anwendungen. Einige dieser Technologien hat das Unternehmen nach anfänglicher eigener Entwicklungsarbeit schließlich als Open Source zur Verfügung gestellt, andere blieben jedoch proprietär.

Hortonworks hingegen warb damit, dass es 100 Prozent seiner Software in der Apache Hadoop Community weiterentwickelt, ohne proprietäre Erweiterungen. Zusatztechnologien, hinter denen das Unternehmen die treibende Kraft war, wie zum Beispiel das Data-Governance-Framework Atlas und die Bereitstellungs- und Verwaltungssoftware Ambari, wurden von Anfang an als Open-Source-Projekte gestartet.

Hortonworks hat sich außerdem mit IBM und anderen Unternehmen zur Open Data Platform Initiative (ODPi) zusammengeschlossen, einer Organisation, die sich der Erstellung eines gemeinsamen Satzes von technischen Kernspezifikationen für Hadoop-Plattformen widmet. Die ODPi-Mitglieder werben damit, dass dies die Interoperabilität verbessern und die Abhängigkeit von einzelnen Anbietern minimieren wird.

Cloudera hat nicht vollständig geklärt, wie es diese beiden Ansätze harmonisieren wird. Aber das Unternehmen sagt, dass seine vereinheitlichte Cloudera Data Platform (CDP) eine „100-prozentige Open-Source-Datenplattform“ sein wird.

MapR hatte einen dritten Weg eingeschlagen, indem es einige Kernkomponenten von Hadoop umgeht und seine eigenen Basistechnologien entwickelte, um große Cluster mit Leistungsanforderungen der Enterprise-Klasse zu unterstützen.

Anstatt HDFS zu verwenden, hatte MapR zum Beispiel ein Dateisystem entwickelt, das zunächst als MapR-FS bekannt war und später als MapR XD Distributed File and Object Store bezeichnet wurde. Außerdem wurde eine NoSQL-Datenbank entwickelt, die zunächst MapR-DB und anschließend MapR Database hieß, als Alternative zum HBase-System, das mit Hadoop verbunden ist.

Mit dem strategischen Fokus auf Echtzeit- und Stream-Processing-Anwendungen enthielt die MapR Data Platform auch eine intern entwickelte Event-Streaming-Technologie, die als MapR Streams eingeführt wurde und schließlich MapR Event Store for Apache Kafka hieß.

Was die Funktionen angeht, so bietet die Enterprise-Version der bestehenden Cloudera-Distribution Tools für das operative Management und Reporting sowie die Unterstützung der Business Continuity. Dazu gehören beispielsweise Konfigurationshistorie und Rollbacks, rollierende Updates und Serviceneustarts sowie automatisiertes Disaster Recovery.

Die von Hortonworks entwickelte HDP-Distribution bietet proaktive Überwachung und Wartung sowie Tools für Data Governance und Metadatenmanagement. Das CDP-Angebot vereinigt die Funktionen von CDH und HDP, mit einigen Überschneidungen bei der Funktionalität, um Migrationen zu erleichtern.

Während seine Cloud-Plattform die primäre Visitenkarte von AWS für Amazon EMR ist, bietet AWS als Teil des Hadoop-Services auch Tools für die Überwachung und Verwaltung von Clustern sowie für die Interoperabilität von Anwendungen und Clustern.

Amazon EMR sammelt und verwendet Metriken, um den Fortschritt zu verfolgen und den Zustand eines Clusters zu messen. Benutzer erhalten Cluster-Zustandsmetriken über die Befehlszeilenschnittstelle, Software Developer Kits (SDKs) oder APIs und können sie über die EMR-Managementkonsole anzeigen.

Zusätzlich kann der AWS-Monitoring-Dienst CloudWatch zusammen mit seiner Implementierung der Performance-Monitoring-Komponente von Apache Ganglia verwendet werden, um den Cluster zu überprüfen und Alerts für Ereignisse zu setzen, die durch diese Metriken ausgelöst werden.

Microsoft Azure HDInsight bietet mehr als 30 Hadoop- und Spark-Anwendungen, die sich nach Angaben des Unternehmens mit einem einzigen Klick installieren lassen. Der Dienst nutzt das Tool Azure Log Analytics als Schnittstelle für die Überwachung von Clustern und ist mit verschiedenen anderen Technologien in der Azure-Cloud integriert, darunter Azure Cosmos DB, SQL Data Warehouse, Blob Storage und Data Lake Storage.

Google Cloud Dataproc bietet eine automatisierte Cluster-Bereitstellung, -Konfiguration und -Verwaltung, obwohl Benutzer die Systeme auch manuell konfigurieren können, wenn sie dies bevorzugen. Cloud Dataproc enthält eine integrierte Integration mit anderen Google-Cloud-Platform-Diensten, wie Google Cloud Storage und BigQuery.

Die Quintessenz: Die Wahl eines Hadoop-Anbieters, der spezielle Komponenten als Teil seines Unternehmensabonnements anbietet, kann bedeuten, dass man sich langfristig bindet – vor allem, wenn diese Komponenten in seine Standard-Stack-Distribution integriert sind. Wenn Unternehmen sich Sorgen um die Bindung an einen Anbieter machen, sollten sie die Anbieter in Betracht ziehen, die am ODPi teilnehmen.

3. Security und Datensicherheit

Trotz des zunehmenden Einsatzes von Open-Source-Software gibt es nach wie vor Bedenken hinsichtlich Sicherheit und Datensicherheit. Die Anbieter von Hadoop-Distributionen haben jedoch Schritte unternommen, um einige dieser Befürchtungen zu zerstreuen.

So hat Hortonworks vor der Übernahme durch Cloudera gemeinsam mit anderen Anbietern und Kunden eine Data-Governance-Initiative für Hadoop ins Leben gerufen, die sich zunächst auf das Apache-Atlas-Projekt zur Verwaltung gemeinsamer Metadaten, Datenklassifizierung, Auditing sowie Sicherheits- und Richtlinienmanagement für den Datensicherheit konzentriert. Außerdem wurde Atlas mit Apache Ranger kombiniert, einem Open Source Security Tool zur Durchsetzung von Datenzugriffsrichtlinien.

Cloudera stellt Tools zur Verfügung, mit denen Anwender Datensicherheit und Governance für die CDH-Plattform verwalten können, um die Anforderungen von Unternehmen an Compliance und gesetzliche Vorschriften zu erfüllen.

Nach Angaben des Unternehmens plant es, einen einzigen Stack von Security und Data Governance Tools in CDP zu integrieren. Cloudera gibt allerdings nicht an, ob dieser auf dem CDH-Stack, dem von Hortonworks oder einer Kombination aus beiden basiert. Darüber hinaus bietet Cloudera Datenverschlüsselung an. Sowohl CDH als auch HDP von Cloudera unterstützen die Verschlüsselung von ruhenden Daten.

Amazon EMR verschlüsselt Daten im Ruhezustand und bei der Übertragung. Es bietet auch Identity-and-Access-Management-Richtlinien (IAM), um Berechtigungen für einzelne Benutzer und Gruppen in Hadoop-Systemen festzulegen. Darüber hinaus werden die IAM-Richtlinien bei Bedarf mit Tagging für eine clusterweise Zugriffskontrolle kombiniert. Weitere Sicherheitsfunktionen umfassen Kerberos-Authentifizierung und Secure-Socket-Shell-Unterstützung.

Azure HDInsight enthält das Enterprise Security Package, ein Technologiepaket, das Unternehmen dabei helfen soll, ihre Daten durch die Nutzung des Azure Virtual Network Service von Microsoft, die serverseitige Verschlüsselung von Daten im Ruhezustand und die Integration mit Azure Active Directory zur Benutzerauthentifizierung zu schützen. ESP beinhaltet auch Ranger für die Einstellung von Zugriffskontrollrichtlinien und die Suche in den Audit-Protokollen, die den Zugriff auf Cluster-Ressourcen verfolgen.

Das Standard-Sicherheitsmodell von Google Cloud Platform gilt für Cloud Dataproc. Dieses bietet eine Reihe von Authentifizierungs-, Autorisierungs- und Verschlüsselungsmechanismen, einschließlich IAM-Berechtigungen und sowohl Secure-Sockets-Layer- als auch Transport-Layer-Security-Verschlüsselung. Daten können benutzerverschlüsselt werden, so dass nur bestimmte Benutzer darauf zugreifen können, wenn ein Cluster eingerichtet wird, wenn sich die Daten auf dem Weg zu oder von einem Cluster befinden oder wenn ein Verarbeitungsauftrag übermittelt wird.

Die Quintessenz: Die Hadoop-Anbieter bieten unterschiedliche Ansätze für Authentifizierung, rollenbasierte Zugriffskontrolle, Verwaltung von Sicherheitsrichtlinien und Datenverschlüsselung. Käufer sollten ihre Security- und Datensicherheitsanforderungen sorgfältig spezifizieren und prüfen, wie die einzelnen Anbieter diese Anforderungen erfüllen.

4. Support

Das grundlegende Versprechen für kommerzielle Open-Source-Software ist die Bündelung und Vereinfachung der Systembereitstellung mit Support und Dienstleistungen. Eine Alternative für die Bereitstellung von Hadoop besteht darin, den Quellcode für jede Komponente aus dem Open Source Repository herunterzuladen und dann alle Teile zusammenzubauen und zu integrieren.

Dies erfordert spezielle Fähigkeiten, verursacht viel Aufwand und ist wahrscheinlich ein iterativer Prozess. Open-Source-Anbieter haben diese Arbeit bereits erledigt, indem sie vorkonfigurierte Distributionen zur Verfügung stellen und aktuelle integrierte Stacks pflegen.

 Abbildung 1: Die Kernkomponenten von Hadoop.
Abbildung 1: Die Kernkomponenten von Hadoop.

Was die Anbieter in hohem Maße voneinander unterscheidet, sind ihre Support-Modelle. Cloudera beispielsweise bietet Abonnements mit Business-Day- und 24/7-Support-Optionen für Unternehmenslizenzinhaber an.

In beiden Fällen verspricht es eine erste Reaktion innerhalb einer Stunde auf einen totalen Funktionsverlust auf einem Produktionssystem, wobei die Support-Techniker bei der Business-Day-Option nur von Montag bis Freitag zwischen 9 und 17 Uhr Ortszeit an Problemen arbeiten. Für seine 24/7-Kunden bietet das Unternehmen auch Premium-Support an, der eine 15-minütige Reaktionszeit bei kritischen Problemen beinhaltet. Cloudera empfiehlt, einen Online-Support-Fall zu eröffnen, wenn technische Probleme auftreten, sagt aber, dass Kunden bei Bedarf auch telefonisch Hilfe anfordern können.

Alle AWS-Konten beinhalten einen Basis-Support, der einen 24/7-Kundendienst, Zugriff auf Community-Foren und Dokumentation sowie Zugriff auf AWS Trusted Advisor bietet. Der Developer-Support umfasst Reaktionszeiten von 12 oder 24 Stunden, je nach Schwere des Problems, und E-Mail-Zugang zu Support-Technikern während der Geschäftszeiten (8 bis 18 Uhr im Land des Kunden).

Der Business-Level-Support bietet einen 24/7-Telefon-, E-Mail- und Chat-Zugang zu den Support-Technikern sowie verkürzte Reaktionszeiten je nach Schweregrad. Der Enterprise-Level-Support bietet zusätzlich eine Reaktionszeit von weniger als 15 Minuten für kritische Probleme sowie einen dedizierten technischen Account Manager und ein Concierge-Support-Team.

Die Quintessenz: Wenn Support-Services die Quelle des Mehrwerts des Anbieters sind, sollten die Kosten für die verschiedenen Support-Abonnements an den Kundenerwartungen ausgerichtet werden. Abonnements, die eine einstündige oder sogar 15-minütige Reaktionszeit auf einer 24/7-Basis mit dedizierten Support-Mitarbeitern bieten, werden viel mehr kosten als eine 24-stündige Reaktionszeit über eine webbasierte Schnittstelle während der Geschäftszeiten.

Hadoop und verwandte Technologien haben die Business-Intelligence-, Analyse- und Datenmanagement-Branche verändert, seit das Big Data Framework im Jahr 2006 geschaffen wurde. Allerdings bietet das Open Source Framework nur begrenzte Features und Support. Unternehmen, die umfassendere Leistungs- und Funktionsfähigkeiten sowie Wartung und Support benötigen, wenden sich kommerziellen Hadoop-Softwaredistributionen zu.

Fortsetzung des Inhalts unten

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close