Big Data mit Oracle: Zwischen teuren Appliances und handelüblicher Hardware

Oracles Big-Data-Lösungen sind teure Appliances. Mit Hadoop und handelsüblicher Hardware läßt sich bei Bedarf ebenfalls Big Data verarbeiten.

Dies ist der erste Artikel einer zweiteiligen Serie über Oracles Big-Data-Strategie. Es zeigt die Vor- und Nachteile von Big-Data-Plattformen, die auf herkömmlicher Hardware oder kostspieligen Appliances arbeiten.

Viele Unternehmen befassen sich mit dem Thema Big Data und suchen nach Wegen, ihre großen Datenmengen zu verwalten und zu analysieren. Dabei haben sich zwei Ansätze für die Implementierung von Big Data herauskristallisiert. Der erste Ansatz ist eine eigene Infrastruktur im Unternehmen aufzubauen, die sich auf handelsübliche Hardware und Open-Source-Software stützt.

Der zweite Ansatz ist im Sinne von Oracles Big-Data-Strategie. In diesem Fall kauft man eine Appliance für die Implementierung von Big Data, in der alle benötigten Hardware- und Software-Komponenten enthalten sind. Das Herzstück bei beiden Ansätzen ist Apache Hadoop. Das Open-Source-Framework hilft beim Management und Zugriff auf unstrukturierte Daten. Beide Ansätze hängen von Hadoop ab und sind um dessen Architektur gebaut.

Hadoop und der Ansatz mit herkömmlicher Hardware

Hadoop ist eine Master-/Slave-Architektur, die man in der Regel auf geclusterten Linux-Rechnern implementiert. Jeder Cluster besteht aus einem Master-Node (Knotenpunkt) und mehreren Slave-Nodes. Der Master verwaltet dabei die Slaves und alle weiteren Aufgaben, die mit der Verarbeitung und dem Zugriff der Dateien auf diesen Nodes zusammenhängen. Die Slave-Nodes sind für die Dateien sowie die Lese- und Schreib-Anfragen zuständig.

In großen Clustern finden Sie normalerweise auch einen sogenannten Name-Node. Dieser ist für die Verwaltung des Hadoop Distributed File System (HDFS) Namespace zuständig und reguliert den Zugriff auf die Dateien. Das HDFS stellt die zur Speicherung, Verwaltung und zum Zugriff benötigte Struktur zur Verfügung. In kleineren Cluster-Umgebungen wird die Funktionalität des Name-Nodes oft in den Master-Node implementiert.

Eine wichtige Komponente von Hadoop ist das MapReduce-Framework. Dieses Framework arbeitet eng mit HDFS zusammen, um große Datensätze in verwaltbare Blöcke aufzuteilen. Diesen lassen sich über viele Computer verteilen und innerhalb des Clusters replizieren. Somit ist eine Fehlertoleranz (Fault Tolerance) sichergestellt. Das MapReduce-Framework gleicht außerdem die Workloads auf den Slave-Nodes aus, um die parallelen Operationen so effizient wie möglich zu gestalten. Dazu gehören die Suche nach Daten, das Abarbeiten komplexer Client-Anfragen und In-Depth-Analysen.

Hadoop, HDFS und das MapReduce-Framework wurden mit einem Augenmerk auf handelsübliche Hardware entwickelt. Diese besteht in der Regel aus Computer-Komponenten, die eine gemeinsame Architektur benutzen. Weiterhin halten sie an offenen Standards fest und weisen kompatible Schnittstellen auf. Somit lassen sich Geräte und Komponenten einfach austauschen. Die Kosten eines solchen Systems sind um einiges geringer als maßgeschneiderte Server, die speziell als Big-Data-Plattformen angepriesen werden. Dieser Umstand steht möglicherweise nicht in Einklang mit Oracles Big-Data-Strategie, die lieber komplexe und teure Server-Hardware verkaufen möchte.

Hadoop auf handelsüblicher Hardware zu implementieren ist für Unternehmen, die Kosten sparen möchten, eine attraktive Option. Unternehmen wie Google oder Yahoo haben bereits bewiesen, dass dies möglich ist. Zum Beispiel verarbeitet Google täglich 20 Petabyte Daten auf handelsüblicher Hardware. Zum Aufbau einer Big-Data-Plattform mit Hadoop gehört allerdings mehr als das Herunterladen von Software und das Aufsetzen einiger Computer.

Bei einem Big-Data-Projekt müssen Sie Ressourcen und Zeit einkalkulieren, die eine Konfiguration von Hadoop erfordert. Dazu gehören Implementierung von unterstützender Software, die Netzwerk-Infrastruktur aufsetzen, Hadoop mit anderen Systemen verknüpfen, maßgeschneiderten Code entwickeln und Analyse implementieren. Eine regelmäßige Wartung der Systeme versteht sich von selbst. Um das zu realisieren, benötigen Sie jede Menge Expertenwissen und IT-Profis, die sich mit den Feinheiten und Stolperfallen von Big Data auskennen.

Der Aufstieg der Big-Data-Appliances

Auch wenn der Zugang zu handelsüblicher Hardware und Open-Source-Software einfach ist, trifft dies nicht unbedingt auf die Implementierung einer Big-Data-Plattform zu. Oracles Big-Data-Strategie sieht vor, Unternehmen für den Kauf proprietärer Hardware anzulocken. Dazu gehört die Big-Data-Appliance von Oracle in der sich alle notwendigen Hardware- und Software-Komponenten für den Big-Data-Einsatz befinden. Eine Appliance ist aber nicht nur ein Stapel Server mit Software. Die Komponenten sind eng mit dem vorkonfiguriertem Paket verknüpft, vollständig getestet und nach der Auslieferung sofort einsatzbereit.

Die Big-Data-Appliance von Oracle wird zum Beispiel als Rack mit 18 Sun Microsystems Computern und Storage-Nodes ausgeliefert. Zudem sind mehrere Infiniband Switches und Kabel, redundante Stromversorgungs-Einheiten sowie Ersatz-Festplatten an Bord. Bei der Software bringt die Big-Data-Appliance Oracle Enterprise Linux, Oracle NoSQL Database, Oracle R und Oracle Big Data Connectors mit. Oracles Appliance stellt mehr als 600 Terabyte Storage-Kapazität zur Verfügung. Das Paket ist mit einem Hadoop-Cluster vorkonfiguriert, der sofort unstrukturierte Daten empfangen kann. Für Hardware und Software gibt es Premium-Support.

Wollen Unternehmen Big Data schnell und einfach implementieren, scheint eine Appliance die perfekte Lösung zu sein. Allerdings hat das seinen Preis. Zum Beispiel kostet eine komplette Oracle Big-Data-Appliance 450.000 US-Dollar (rund 330.000 Euro). Der Support für das System wird jährlich mit 54.000 US-Dollar (rund 40.000 Euro) und Unterstützung für das Betriebssystem mit 36.000 US-Dollar (rund 26.500 Euro) berechnet. Für diese Summen können Sie jede Menge handelsübliche PC-Komponenten kaufen. Haben Unternehmen allerdings das Expertenwissen und die entsprechenden Ressourcen nicht im eigenen Haus, kann eine Appliance ein gutes Geschäft sein.

Appliance gegen herkömmliche Hardware

Sowohl handelsübliche Komponenten als auch Appliance-Plattformen haben ihre Vor- und Nachteile. Welchen Weg Sie einschlagen, ist oft keine leichte Entscheidung. Sie können nicht nur die die Kosten der Implementierung und der Verwaltung von Big-Data-Plattformen auf der Rechnung haben. Sie müssen wissen, was Sie sich langfristig von dem System versprechen. Im zweiten Artikel dieser Serie gehen wir genauer auf Aspekte ein, die Sie bei Überlegungen für den Kauf oder Eigenbau einfließen lassen sollten.

Über den Autor:

Robert Sheldon ist technischer Consultant und Autor mehrere Bücher, Artikel und Schulungs-Material von Microsoft Windows, verschiedener relationaler Datenbank-Systeme sowie Business-Intelligence-Design und -Implementierung.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Dezember 2013 aktualisiert

Erfahren Sie mehr über Big Data

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close