Der Einfluss von Hadoop 2.0 auf neue Big-Data-Technologien

Mit Hadoop 2.0 wird die Verarbeitung von Big Data On-Premise attraktiv. Allerdings hat das Framework noch einige Schwachstellen bei der Security.

Unternehmen, die sich früh auf Big-Data-Territorium gewagt haben, verließen sich auf die Cloud für ihre Hadoop-Pilotprojekte. Laut Merv Adrian, Analyst bei Gartner, ändert sich das aber derzeit. Mittlerweile fragen immer mehr Kunden nach, wie sie Hadoop On-Premise nutzen können.

Beobachtungen wie diese zeigen, wie schnell sich Big Data und die damit verbundenen Technologien weiterentwickeln. Das ist besonders der Fall seit Hadoop 2.0 (beziehungsweise 2.2.0) im Oktober letzten Jahres für alle Anwender verfügbar ist, argumentieren Adrian und sein Kollege Nick Heudecker. Die aktualisierte Version des Frameworks der Apache Software Foundation war aufgrund der neuen Funktion YARN (Yet Another Resource Negotiator) im Herbst letzten Jahres in den Schlagzeilen. Damit beendet Hadoop die Stapelverarbeitung und wird zu einer Echtzeit-Lösung. Die Gartner-Analysten sind sich sicher, dass die robustere Version zu einem weiteren Aufwärtstrend für Hadoop-Implementierungen führt.

„Da die Anwender immer mehr Erfahrungen sammeln, erwarten wir, dass sie größere Projekte erstellen werden“, sagt Adrian während eines Webinars, das er zusammen mit Heudecker veranstaltete. Doch nicht nur größere Projekte, sondern auch völlig neue Projekte kommen hinzu, die miteinander in einer Weise interagieren können, wie es bisher nicht möglich war. Hadoop 2.0 könnte sogar in der Lage sein, tiefer in ein Unternehmen vorzudringen und mit anderen Technologieschichten verbunden zu werden. Und während die meisten Firmen Big-Data-Anwendungen dafür nutzen, um transaktionale Daten zu verarbeiten, kann Hadoop 2.0 Firmen dabei helfen, unstrukturierten und semi-strukturierten Daten zu beackern, so die beiden Analysten.

Schiebt man die Werbeversprechen beiseite, ist Hadoop 2.0 aber nicht fehlerfrei. Eine wesentliche Schwäche ist Security - oder besser deren Fehlen. „Es ist wichtig zu beachten, dass diese Systeme größtenteils in webzentrierten Unternehmen aufwuchsen, die in erster Linie mit öffentlichen Daten arbeiten“, erläutert Heudecker. „Wenn mehr Unternehmen diese Technologie implementieren, müssen sie die Sicherheitlücke schließen.“

CIOs sollten davon ausgehen, dass Security und Big Data die großen Themen dieses Jahr sein werden. Diese Themen befinden sich bereits auf der Agenda einiger Anbietern, darunter Dataguise, Gazzang, Protegrity USA und Zettaset, so Adrian. „Vieles, was sich mit Big Data beschäftigt, kombiniert verschiedener Datenströme mit dem Ziel, eine breitere, umfassendere Sicht auf die Kunden zu bekommen. Dadurch sind natürlich viele besorgt, wie sie den Datenschutz gewährleisten“, ergänzt er.

Hadoop-Anbieter reagieren auf den Markt

Während des Webinars bot Adrian einen Überblick verschiedener Hadoop-Anbieter. Dabei erläuterte er auch, wie sich das Big-Data-Angebot einzelner Anbieter gestaltet, an wen sich die Lösungen richten und wohin sich der Markt entwickelt. Eine kurze Zusammenfassung:

  1. Amazon Web Services (AWS): Die Kunden von AWS arbeiten mit Cloud-Anwendungen oder sind dabei, ihre Datenverarbeitung in die Cloud zu verlegen. Dabei diskutieren sie wenig über hybride On-Premise-/Cloud-Umgebungen.
  2. Cloudera: In diesem Modell bewegt sich Hadoop auf das Zentrum der Data-Center-Architektur zu. Zudem wird es mit neuen und vorhandenen Systemen verbunden. Allerdings sollte man nicht erwarten, dass es in absehbarer Zeit vollständig verfügbar ist. „Bei diesem Angebot steht vor allem die Marketing-Botschaft im Vordergrund“, sagt Adrian. „Dahinter steht die Hadoop-Community, die eine künftige Version von Hadoop und dessen erwartete Rolle beschreibt.“
  3. Hortonworks: Das Yahoo-Spinoff fügt keine weiteren Bausteine zu seiner Distribution hinzu. Das bedeutet, wenn ein Unternehmen sich entscheidet, neue Bestandteil zu ergänzen, die nicht von Apache sind, „müssen Sie diese Integration selbstständig machen“, so Adrian.
  4. IBM: Laut Adrian versucht IBM mit allen Mitteln, Hadoop mit dem Rest seines Softwareangebot zu verbinden.
  5. Intel: Nach Intel sollte man 2014 Ausschau halten. Das Unternehmen versucht, seine Kernkompetenzen für die Verbesserung von Performance und CPU-Leistung einzusetzen. „Das umfasst auch die Security“, so Adrian.
  6. MapR Technologies: Das Unternehmen konzentriert sich auf Performance und Enterprise-Eigenschaften. Außerdem wird es weiterhin seine Unterstützung für den direkten Zugriff auf das Netzwerkdateisystem hervorheben. Das heißt, dass weniger Daten verschoben werden sollen.
  7. Pivotal Software: Adrian nennt Pivotal Software einen „interessanten Akteur mit einer guten Perspektive.“ Das Unternehmen fokussiert sich darauf, wie „Sensornetzwerke und In-Memory- sowie Echtzeitverarbeitung eine Firma verändern“, sagt er abschließend.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Erfahren Sie mehr über Datenverwaltung

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close