Große Datenmengen verteilt speichern und auswerten per Hadoop

Cloud & Hosting

So macht Hadoop Big Data beherrschbar

20.06.2025

12 Min.

Wollen Sie große Datenmengen aus Produktion oder Verkauf im Firmennetzwerk speichern und anschließend von vielen Arbeitsplätzen und/oder Standorten aus gleichzeitig auf die Inhalte zugreifen? Oder möchten Sie Ihre Bestände mithilfe künstlicher Intelligenz (KI) auswerten? Mit Hadoop erschaffen Sie sich Ihre persönliche Cloud-Alternative auf dem eigenen Firmengelände – Back-up-Funktion und Lastmanagement inklusive.

Wenn Sie viel mit Big Data arbeiten, benötigen Sie entsprechende Speicher- und Rechenlösungen. Herkömmliche Server und Dateisysteme kommen da schnell an Grenzen. Mit Hadoop überwinden Sie diese Grenzen. Wie das geht und was Sie im Einzelnen dafür brauchen, erfahren Sie hier.

Inhaltsverzeichnis

Was ist Hadoop?Hadoop-Bestandteile: So funktioniert die Architektur mit Clustern Erweiterungen für Hadoop Wofür wird Hadoop verwendet?

Was ist Hadoop?

Hadoop ist ein Java-basiertes Software-Framework, also ein Paket aus vielen Einzelanwendungen und definierten Schnittstellen. Damit können Sie große Datenmengen mit mehreren Petabyte Umfang speichern und programmgesteuert analysieren. Selbst Cluster aus mehreren tausend Computern kann die Software problemlos managen und zu einer einzigen Speicher- und Recheninstanz zusammenfassen.

Mit Hadoop können Sie komplexe Analyseaufgaben in viele kleine Teilschritte zerlegen. Diese lassen Sie dann parallel über Ihren gesamten Datenbestand laufen. Das spart Ressourcen und verkürzt die Rechenzeit.

Ein typischer Anwendungsfall von Hadoop ist die Big-Data-Analyse im selbst administrierten On-Premises-Netz, also im Netzwerk auf Ihrem Firmengelände. Aber auch bei der klassischen Datenanalyse und dem maschinellen Lernen kommt Hadoop häufig zum Einsatz.

Hadoop basiert auf den Entwicklungen und den Datenmodellen verschiedener Suchmaschinenanbieter wie Google, die bereits in der Frühzeit des Internets sehr große Rechenlasten innerhalb ihrer Serverparks effizient aufteilen mussten.

Auf dieser Grundlage wurde Hadoop in der Programmiersprache Java als quelloffenes Open-Source-Projekt weiterentwickelt. Unternehmen und Privatpersonen können den Quellcode der Software kostenfrei nutzen, an ihre eigenen Anforderungen anpassen oder auch als eigene Distributionen weitervertreiben. Besonders bekannt und weitverbreitet ist die Apache-Distribution von Hadoop.

Hadoop ist kompatibel mit vielen gängigen Hard- und Software-Produkten. Es unterstützt je nach Distribution neben Linux auch weitere Betriebssysteme wie Windows und macOS. Als Firmenkund:in müssen Sie für Ihre Big-Data-Analysen somit keine neuen IT-Strukturen schaffen, sondern können in vielen Fällen die vorhandene Infrastruktur weiterverwenden.

Das senkt die Software- und Hardware-Kosten bei der Speicherung und Verarbeitung großer Datenmengen im eigenen Rechenzentrum. Damit ist Hadoop eine interessante Alternative zur extern bereitgestellten Private Cloud oder Public Cloud als Rechenumgebung.

Der Name „Hadoop“ wird oft als Abkürzung für „High Availability Distributed Object Oriented Platform“ gedeutet – tatsächlich handelt es sich aber um ein reines Kunstwort.

Gut gelaunter Mann mit einem Headset vor einem Notebook.

Microsoft Azure: Back-up, SharePoint und Virtual Desktops

Sichern und archivieren Sie wertvolle Daten jetzt noch einfacher.

Mit Single-Sign-on für IT-Anwendungen und SharePoint-Integration stellen Sie Desktop-Anwendungen jetzt noch schneller bereit.

Und mit dem Azure Virtual Desktop konzentrieren Sie sich auf Strategie und Management – statt um die Verwaltung Ihrer Infrastruktur.

Jetzt über Microsoft Azure informieren

Hadoop-Bestandteile: So funktioniert die Architektur mit Clustern

Unter der Bezeichnung „Hadoop Common“ sind zahlreiche zentrale Funktionen und Bibliotheken zusammengefasst, auf die andere Anwendungen bei ihren Hadoop-Abfragen zugreifen können.

Das Dateisystem von Hadoop

Das Dateisystem Hadoop Distributed File System (HDFS) bildet die zentrale Organisationsstruktur von Hadoop. Der Name beschreibt zugleich die Fähigkeit von HDFS, seine Dateien (Files) möglichst gleichmäßig auf viele Computer eines Rechnerverbundes zu verteilen (to distribute).

Unter HDFS werden die einzelnen Computer eines Speichersystems auch als Nodes (auf Deutsch: Knoten) bezeichnet. Das Dateisystem fasst mehrere dieser Knoten zu sogenannten Clustern zusammen.

In jedem Cluster gibt es einen zentralen Computer, den Name Node. Dieser erstellt die Verzeichnisse (Directories) aller im Cluster gespeicherten Dateien. Außerdem verwaltet er die Zugriffsrechte in Mehr-Benutzer-Systemen. Weil der Name Node der bestimmende Hauptknoten des jeweiligen Clusters ist, wird er manchmal auch als Master Node bezeichnet. Dem Name Node sind wiederum die sogenannten Data Nodes untergeordnet.

Der Name Node orchestriert unter HDFS alle Speicher-, Lese- und Kopierzugriffe. Er gibt vor, wie eingehende Dateien in kleine Blöcke aufgeteilt und dann auf die einzelnen Data Nodes verteilt werden. Umgekehrt regelt der Name Node auch, wie Datenbestände bei Lesezugriffen wieder zusammengefügt werden.

Die Daten selbst laufen dabei zu keinem Zeitpunkt durch den Speicher des Name Node. Stattdessen empfangen und versenden die Data Nodes die Daten nach seinen Vorgaben.

Weil HDFS die zeitaufwendigen und ressourcenhungrigen Datenverkehre auf die Ebene der Data Nodes auslagert, können entsprechende Anforderungen sehr schnell und zudem parallel auf vielen Knoten gleichzeitig verarbeitet werden. Außerdem wird der Name Node selbst bei großen Datenmengen nicht zum Flaschenhals im Datenstrom. HDFS erreicht dadurch hohe Datenraten sowohl beim Hoch- als auch beim Herunterladen großer Datenmengen.

Mehr Sicherheit durch Datenkopien

Eine besondere Stärke von HDFS ist, dass es automatisiert Sicherheitskopien aller eingehenden Daten erstellt. Die Data Nodes kopieren alle eingehenden Datenblöcke und reichen diese Kopien selbständig an andere Data Nodes weiter. Somit kann der Ausfall eines einzelnen Knotens niemals zu einem Datenverlust führen, weil jedes Datenbit noch auf mindestens einem weiteren Knoten gespeichert ist.

Ähnliche Sicherungssysteme gibt es auch bei anderen Speichertechnologien, etwa bei sogenannten RAID-Systemen (Ausnahme: RAID 0), die intern mit einem Cluster aus mehreren Festplatten arbeiten. Alle eingehenden Daten werden dort auf zwei komplett identischen Festplatten gespeichert. Bei einem Ausfall oder beim Entfernen einer einzelnen Festplatte springt deren „Spiegelfestplatte“ im laufenden Betrieb als Ersatz ein.

Im Unterschied hierzu arbeitet HDFS jedoch nicht mit einer simplen 1:1-Spiegelung seiner Datenträger: Jede eingehende Datei wird in einer anderen Reihenfolge auf die Data Nodes des jeweiligen Clusters verteilt. So gewährleistet HDFS, dass kein Data Node überdurchschnittlich stark belastet wird. Denn bei einer festen, immer gleichen Reihenfolge würden die ersten Data Nodes in der Reihe viel stärker belastet als die hinteren Data Nodes. Kurze Datensätze würden beispielsweise nur auf den ersten Data Nodes der Reihe gespeichert werden, während die hinteren Data Nodes nur für sehr lange Datensätze überhaupt herangezogen würden. Damit ginge der Vorteil des lastverteilten Parallelbetriebs verloren, bei dem möglichst alle Data Nodes immer gleichmäßig ausgelastet werden und zeitgleich Daten speichern oder ausgeben.

Damit der Ausfall eines Name Node nicht zum Ausfall des kompletten Clusters führt, unterstützt HDFS sogenannte Hot Standby Nodes (kurz: HDN, auf Deutsch: aktive Bereitschaftsknoten). Ein solcher HDN ist eine exakte Kopie des eigentlichen Name Node. Er übernimmt unterbrechungsfrei dessen Aufgaben, falls der ursprüngliche Name Node einmal ausfallen sollte.

Intelligente Datenbündelung innerhalb von Serverracks

HDFS erkennt außerdem, wenn mehrere Knoten in einem Rechenzentrum beispielsweise als Blade Server im selben Serverschrank (Rack) verbaut sind – und dadurch ihre Daten besonders schnell untereinander austauschen können. HDFS bemüht sich dann, Dateien und deren Kopien jeweils in den Knoten desselben Racks zu bündeln. Diese Fähigkeit wird auch als Rack Awareness bezeichnet.

Umgekehrt speichert HDFS bei Mehrfach-Back-ups mindestens eine Kopie jeder Datei auf einem komplett anderen Rack, sofern das Cluster entsprechend konfiguriert ist. Dann kann selbst der Ausfall eines ganzen Serverracks nicht zu Datenverlust führen.

Hadoop erkennt den Ausfall einzelner Komponenten sehr schnell und ersetzt diese im laufenden Betrieb durch entsprechende Spiegel-Komponenten. Deshalb zählt Hadoop mit HDFS zu den sogenannten hochverfügbaren Systemen mit sehr geringen Ausfallzeiten im Jahresmittel.

Übereinander angeordnete Lüfter von Festplatten in einem Rechenzentrum.

Flexible Speicher-Lösung: Vodafone Total Cloud Storage

Storage wird zu einem der größten Kostenfaktoren unter den IT-Ausgaben.

Buchen Sie unsere Angebote einfach zu Ihrer Vodafone Total Cloud-Lösung dazu.

Vodafone Total Cloud Storage hat die ISO 27001-Zertifizierung und basiert auf aktuellster Technologie.

Wir garantieren wir Ihnen bis zu 99,99 % Verfügbarkeit, je nach Lösung.

Durch umfangreiche Back-up- und Restore-Lösungen schützen Sie Ihre Produktionsdaten vor Korruption, Verlust und versehentlichen Löschungen.

Mehr zu Vodafone Total Cloud Storage

Verteiltes Rechnen mit MapReduce

Ein zentraler Bestandteil von Hadoop ist das Programmiermodell MapReduce (ursprünglich von Google entwickelt). Es übernimmt die Aufteilung besonders großer und zeitintensiver Berechnungen auf mehrere Knoten innerhalb eines Clusters, also das verteilte Rechnen mithilfe sogenannter Mapper. Anschließend werden die erhaltenen Zwischenergebnisse mit einem Reducer vereinfacht. Aus dieser Kombination ergibt sich auch der Name dieser Hadoop-Komponente.

Mit MapReduce können bestimmte Berechnungen in wesentlich kürzerer Zeit abgeschlossen werden, als es auf einem einzelnen Computer möglich wäre – beispielsweise KI-Lernvorgänge. MapReduce unterstützt verschiedene etablierte Programmiersprachen, darunter C++, Java und Python.

Lastmanagement mittels YARN

Mit der Zeit ergaben sich neue Herausforderungen für das technische Lastmanagement unter HDFS, etwa weil viele HDFS-Cluster wuchsen, während gleichzeitig viele Nutzer:innen parallel darauf zugriffen. Viele ähnliche Zugriffe in kurzer Zeit konnten Cluster ausbremsen, während Rechenleistung an anderer Stelle im selben Cluster oder in benachbarten Clustern noch ausreichend vorhanden war.

Die Antwort hierauf war die Entwicklung der Ressourcenverwaltung Yet Another Resource Negotiator (kurz: YARN, auf Deutsch: Noch ein weiterer Ressourcenvermittler). Die Software ist seit Version Hadoop 2.0 zwischen die Anwenderseite und die eigentlichen Cluster geschaltet und übernimmt hier dasLastmanagement auf der Grundlage vorab festgelegter Richtlinien.

Über virtuelle Warteschlangen, sogenannte Queues, werden die Kapazitäten eines Clusters auf unterschiedliche Anfragen verteilt. Ab der Version 3.1.0 unterstützt YARN auch die Verteilung von GPU-Ressourcen auf Grafikkarten, was insbesondere für das maschinelle Lernen interessant ist.

Dabei hat YARN auch einige Aufgaben der Ressourcenverwaltung übernommen, die vorher bei MapReduce lagen. Daher wird manchmal die YARN-Plattform als das Betriebssystem von Hadoop bezeichnet.

Erweiterungen für Hadoop

Inzwischen gibt es eine Vielzahl von Erweiterungen für Hadoop. Viele davon laufen wie Hadoop unter einer Open-Source-Lizenz. Aber auch Spezialanbieter entwickeln Erweiterungen und vertreiben sie als klassische Kaufsoftware. Einige der bekanntesten Erweiterungen aus dem Hadoop-Ökosystem sind:

Apache Pig

Apache Pig ist für Datenanalysen in sehr großen Datensätzen konzipiert. Es verwendet für Abfragen die Programmiersprache Apache Pig High Level Programming Language, die speziell für diese Aufgabe entwickelt wurde. Das Wort „Pig“ (zu Deutsch: „Schwein“) im Namen der Programmiersprache weist darauf hin, dass sie auch unstrukturierte Daten und gemischte Datenbestände sehr robust und störungsfrei „verdauen“ und analysieren kann.

Hive

Hadoop wird teilweise als Datenbanksystem bezeichnet, obwohl es technisch gesehen keines ist. Es kann allerdings große Datenvolumen verarbeiten und hierbei strukturierte, teilstrukturierte sowie unstrukturierte Datenbestände verwalten. Mithilfe der Erweiterung Hive versteht Hadoop zudem SQL-ähnliche Abfragen und kann diese über die gespeicherten Daten im HDFS laufen lassen.

Apache HBase

HBase ist ein sogenannter Nichtrelationaler (NoSQL-)Datenbankspeicher, der wiederum auf dem Bigtable-Modell von Google basiert. Die Stärke von Apache HBase ist die Suche nach sehr kleinen Dateneinheiten von nur wenigen Zeichen Länge innerhalb von sehr großen, wenig strukturierten Datenbeständen.

Daneben gibt es für Hadoop zahlreiche Datenverarbeitungs- und Ausführungsmanager wie Spark, Flink und Kafka. Außerdem sind Tools verfügbar, mit denen Sie Abfragen beschleunigen oder Hadoop für weitere Programmiersprachen öffnen. Mit dem Apache ZooKeeper (auf Deutsch: Zoowärter) können Sie Ressourcen innerhalb Ihres Serverparks redundant bereitstellen und Server automatisiert miteinander synchronisieren.

Wofür wird Hadoop verwendet?

Im Bereich Big Data wird üblicherweise unterschieden zwischen dem sogenannten Data Lake und seinem Gegenstück, dem Data Warehouse. Dabei enthält der Data Lake üblicherweise gemischte und unstrukturierte Rohdaten aus verschiedenen Quellen, während das Data Warehouse für strukturierte und in der Regel vorverarbeitete Daten gedacht ist.

Im Hadoop-Universum gibt es sowohl Funktionalitäten und Erweiterungen für den Betrieb von Data Lakes als auch für Data Warehouses. Hadoop wird besonders häufig als kostengünstige Umgebung für Data Lakes eingesetzt. Aber auch das Angebot an Werkzeugen für Data Warehouses unter Hadoop wächst. Ein Beispiel hierfür ist die oben genannte Erweiterung Hadoop Hive.

Eine Frau sitzt lächelnd vor einem Notebook

Vodafone Modbus Cloud Connect

Das All-in-One-Produkt für eine direkte Verbindung von Modbus-RTU-Geräten über LPWA (NB-IoT & LTE-M) in die Cloud.

Einfache Installation & Inbetriebnahme
Einfaches IoT-Upgrade von Bestandsgeräten (Retrofit)
Einfache, autarke Datenkommunikation über Narrowband-IoT & LTE-M
Einfacher und gesicherter Betrieb über den Lebenszeitraum

Jetzt mehr erfahren

Apache Software Foundation und Hadoop

Seit 2008 bietet die Apache Software Foundation (ASF) Hadoop unter dem Namen „Apache Hadoop“ als kostenfreie Distribution an und entwickelt sie stetig weiter. Die ASF ist ein ehrenamtlicher Zusammenschluss von Software-Entwickler:innen, die an verschiedenen Open-Source-Projekten arbeiten. Besonders bekannt ist etwa der Apache-Webserver, die derzeit meistgenutzte Webserver-Software im Internet.

Wie bei größeren Open-Source-Projekten üblich, gibt es auch von Hadoop inzwischen zahlreiche Distributionen von unterschiedlichen Anbietern.

Weitverbreitet sind neben Apache Hadoop die Distributionen von Cloudera und Hortonworks, wobei die Unternehmen 2018 fusioniert haben. Damit ging auch die Apache-Produktreihe von Hortonworks namens Hortonworks Data Platform (HDP) in der Cloudera Data Platform auf.

Bekannt ist außerdem die Hadoop-Distribution von MapR Technologies, die Hewlett Packard (HP) seit der Übernahme des Unternehmens selbst weiterführt.

Als klassisches Framework ist Hadoop keine per Mausklick startfähige Software, sondern eine Sammlung aus vielen Basisfunktionen, Programmbibliotheken sowie definierten Schnittstellen für die Kommunikation mit anderen Endgeräten oder Programmen. Bevor Sie Hadoop nutzen können, müssen Sie es individuell aufsetzen. Einige Distributionen werden deshalb im Paket mit Beratungsleistungen vertrieben. Diese Angebote wenden sich vor allem an Firmen und Organisationen, die eine Hadoop-Installation auf eigener Hardware einrichten möchten, aber selbst nicht über das dafür notwendige technische Know-how verfügen.

Andere Anbieter kombinieren Hadoop mit eigenem Cloud-Speicherplatz oder Datenbank- und KI-Plattformen. So haben fast alle großen Cloud-Anbieter wie Amazon, Google, Microsoft und IBM individuelle Installationspakete oder zumindest Schnittstellen für Hadoop im Portfolio.

Welche Unternehmen nutzen Hadoop?

Weil Hadoop so vielfältig ist, kommt es inzwischen branchenübergreifend zum Einsatz – vom Gesundheitswesen über die Wissenschaft bis hin zum Finanzsektor. Viele große Unternehmen wie Amazon, Facebook, Google und Netflix arbeiten mit Hadoop. Sie nutzen es beispielsweise für ihre Suchmaschinen und Cloud-Services sowie für den Betrieb von sozialen Netzwerken und Streaming-Produkten.

Vor- und Nachteile von Hadoop

Die wichtigsten Vorteile von Hadoop sind:

Hadoop ist als Open-Source-Software sehr kostengünstig.
Durch den Quellcode, der seit vielen Jahren offenliegt, ist die Gefahr sogenannter Zero-Day-Exploits vergleichsweise gering.
Wenn Sie entsprechende Programmierkenntnisse haben, können Sie selbst Erweiterungen entwickeln.
Hadoop läuft auf unterschiedlichen Betriebssystemen und Hardware-Plattformen.
Bei entsprechender Konfiguration sind HDFS-basierte Datenstrukturen sehr robust gegen Ausfälle.
Hadoop und seine Erweiterungen unterstützen viele unterschiedliche Programmiersprachen und Datenbankformate.

Folgende Nachteile sind bei Hadoop zu berücksichtigen:

Die Einarbeitung in Hadoop erfordert viel Aufwand. Sie benötigen daher Mitarbeiter:innen mit entsprechenden Spezialkenntnissen, um Hadoop zu installieren und dauerhaft zu betreuen.
Hadoop-Erweiterungen basieren auf jeweils unterschiedlichen Programmiersprachen sowie -philosophien und stammen von verschiedenen Anbietern. Deshalb kann die administrative Komplexität des Gesamtsystems sehr hoch werden.
Einige Expert:innen gehen davon aus, dass Hadoop mittelfristig durch extern bereitgestellte Cloud-Produkte verdrängt wird. Denn Unternehmen benötigen für deren Betrieb weniger Fachwissen und können die gesamte Wartung und Hardware-Bereitstellung auslagern.

Mit Vodafone in der Multi-Cloud durchstarten

Kaum ein Cloud-Dienst deckt sämtliche unternehmerischen Anforderungen aus einer Hand ab. Mit Vodafone gelingt die Steuerung Ihres Multi-Cloud-Ansatzes optimal: Neben den Angeboten von Azure, Alibaba und AWS bieten wir professionellen Support und optimale Konnektivität aus einer Hand.

Umfassende Bedarfsanalyse im Vorfeld
Individueller Roll-out-Plan basierend auf Ihren Anforderungen
Gemeinsame Optimierung der Infrastruktur und Services

Jetzt informieren

Das Wichtigste zu Hadoop in Kürze

Hadoop ist ein spezielles Framework, um sehr große Datenmengen zu speichern und zu verarbeiten.
Die Apache Software Foundation (ASF) entwickelt und vertreibt ihre Hadoop-Distribution unter dem Namen „Apache Hadoop“.
Cloudera und Hortonworks sowie MapR Technologies haben weitere bekannte Hadoop-Distributionen entwickelt. Durch einige Firmenübernahmen hat sich dieser Sektor in Teilen neu organisiert.
Hadoop eignet sich sowohl für den Betrieb eines Data Lake als auch für die Arbeit mit einem Data Warehouse. Im Hadoop-Ökosystem gibt es zahlreiche Erweiterungen für beide Anwendungsfälle.
Eine große Stärke von Datenstrukturen mit dem Hadoop Distributed File System (HDFS) ist ihre Robustheit gegenüber Ausfällen und Datenverlusten.
Ein Nachteil von Hadoop sind die umfangreichen erforderlichen Spezialkenntnisse für Installation und Betrieb entsprechender Systeme.

Lorenz Steinke

20.06.2025

# Tags:Cloud Business Basics Tipps Service Mobiles Arbeiten

Anwendungsmodernisierung

Kund:innen erwarten heute moderne Services, neue Geschäftsmodelle verlangen nach flexiblen technischen Grundlagen. Genau hier setzt die Anwendungsmodernisierung an. Im folgenden Beitrag erfahren Sie, was Anwendungsmodernisierung ist und welche Strategien sich bewährt haben.