Zum Inhalt springen

Apache Hadoop

Apache Hadoop ist ein freies Framework für skalierbare, verteilte Software, das die Verarbeitung großer Datenmengen ermöglicht. Es basiert auf dem MapReduce-Algorithmus und dem Hadoop Distributed File System (HDFS) und wurde entwickelt, um Big-Data-Herausforderungen in Clustern zu bewältigen. Hadoop unterstützt die Speicherung und Analyse von Daten im Petabyte-Bereich und ist ein Kernbestandteil des Hadoop-Ökosystems.

Hadoop entstand aus dem Bedarf, große Datenmengen effizient zu verarbeiten. Inspiriert von Googles MapReduce und Google File System, entwickelten Doug Cutting und Mike Cafarella 2004 das Projekt Nutch. 2006 wurde Hadoop als separates Apache-Projekt etabliert. Seitdem hat es sich zu einem der wichtigsten Big-Data-Tools entwickelt, mit Beiträgen von Unternehmen wie Yahoo und Facebook.

Hadoop verwendet eine verteilte Architektur mit einem zentralen Ressourcenmanager und mehreren Worker-Knoten zur effizienten Datenverarbeitung und -speicherung.

graph TD
    A[Hadoop Cluster] --> B[YARN Resource Manager]
    A --> C[HDFS NameNode]
    B --> D[NodeManager]
    C --> E[DataNode]
    D --> F[Container]
    E --> G[Data Blocks]

HDFS ist ein hochverfügbares Dateisystem zur Speicherung großer Datenmengen auf mehreren Knoten. Dateien werden in Blöcke zerlegt und redundant gespeichert. Ein NameNode verwaltet Metadaten, während DataNodes die Daten speichern.

YARN verwaltet Ressourcen dynamisch im Cluster. Es trennt Ressourcenverwaltung von Datenverarbeitung und unterstützt verschiedene Anwendungen.

MapReduce ist das ursprüngliche Verarbeitungsmodell, das Daten in Map- und Reduce-Phasen aufteilt. Es ermöglicht parallele Verarbeitung, gilt jedoch zunehmend als veraltet zugunsten von DAG-basierten Frameworks wie Apache Spark.

Hadoop wird durch Tools wie Hive (SQL-Abfragen), Pig (Skripting), HBase (NoSQL-Datenbank) und Spark (In-Memory-Verarbeitung) erweitert.

Hadoop findet Einsatz in der Datenanalyse, Log-Verarbeitung und maschinellem Lernen. Es unterstützt Batch-Verarbeitung und ist skalierbar für Unternehmen wie Facebook und Yahoo.

Vorteile sind Kosteneffizienz, Skalierbarkeit und Fehlertoleranz. Herausforderungen umfassen Latenz bei Echtzeitverarbeitung und Komplexität der Konfiguration.

Apache Hadoop. (2024). Hadoop Documentation. Retrieved from https://hadoop.apache.org/docs/

Wikipedia. (2025). Apache Hadoop. Retrieved from https://de.wikipedia.org/wiki/Apache_Hadoop