Definition

Hadoop-Cluster

Ein Hadoop-Cluster ist eine spezielle Art von Computer-Cluster, der für die Speicherung und Analyse von großen Mengen unstrukturierter Daten in einer verteilten Rechenumgebung entwickelt wurde.

Diese Cluster setzen das Open-Source-Framework Hadoop auf kostengünstigen Standard-Computern ein. Üblicherweise wird ein Rechner innerhalb des Clusters als NameNode festgelegt, ein anderer Computer als JobTracker. Diese beiden sind die sogenannten Master. Die übrigen Computer innerhalb des Clusters fungieren sowohl als DataNode als auch als TaskTracker. Diese Rechner werden als Slaves bezeichnet. Hadoop-Cluster werden oftmals auch Shared-nothing-Systeme genannt, da sie nichts außer dem Netzwerk teilen, welches sie miteinander verbindet.

Hadoop-Cluster sind bekannt dafür, dass sie die Geschwindigkeit von Applikationen zur Datenanalyse deutlich erhöhen. Darüber hinaus sind sie hoch skalierbar. Wenn die Rechenleistung eines Clusters der wachsenden Datenmenge nicht mehr standhalten kann, können weitere Cluster hinzugefügt werden, um den Durchsatz zu erhöhen. Hadoop-Cluster besitzen eine hohe Fehlerresistenz, da jeder Datensatz auf einen anderen Cluster kopiert wird, so dass selbst dann keine Daten verloren gehen, wenn ein Node ausfällt.

Zu den weltweit größten Hadoop-Clusters zählen Nutzer wie Facebook, Google, Yahoo und IBM.

Diese Definition wurde zuletzt im September 2015 aktualisiert

Nächste Schritte

KNIME open source data analytics delivers commercial extensions for big data, cluster operations and collaboration.  

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close