Apache Hadoop ist ein Java-basiertes Open-Source-Softwareframework und eine Engine für parallele Datenverarbeitung. Es ermöglicht, dass Verarbeitungs-Tasks für Big Data Analytics in kleinere Tasks aufgeteilt werden, die mithilfe eines Algorithmus (wie dem MapReduce-Algorithmus) parallel ausgeführt werden können, wobei diese auf einem Hadoop-Cluster verteilt werden. Ein Hadoop-Cluster ist eine Ansammlung von Datenverarbeitungsumgebungen, sogenannten Knoten, die miteinander vernetzt sind, um diese Art paralleler Verarbeitungen an Big-Data-Datensätzen durchzuführen. Im Gegensatz zu anderen Datenverarbeitungsclustern sind Hadoop-Cluster für die Speicherung und Analyse großer Mengen strukturierter und unstrukturierter Daten in einer verteilten Datenverarbeitungsumgebung konzipiert. Ein weiteres Merkmal von Hadoop-Ökosystemen, das sie von anderen Datenverarbeitungsclustern unterscheidet, ist ihre einzigartige Struktur und Architektur. Hadoop-Cluster bestehen aus einem Netzwerk verbundener Master- und Slave-Knoten, die hochverfügbare, kostengünstige Standardhardware nutzen. Die Fähigkeit, Knoten linear zu skalieren und je nach Volumenbedarf schnell hinzuzufügen oder zu entfernen, macht sie gut geeignet für Jobs aus dem Bereich Big Data Analytics mit Datensätzen, die in ihrer Größe stark variieren.
Hadoop-Cluster setzen sich aus einem Netzwerk von Master- und Worker-Knoten zusammen, die die verschiedenen Jobs im Hadoop Distributed File System (HDFS) koordinieren und ausführen. Die Master-Knoten nutzen in der Regel leistungsstärkere Hardware und umfassen einen NameNode, einen Secondary NameNode und einen JobTracker, wobei jeder auf einer separaten Maschine läuft. Die Worker bestehen aus virtuellen Maschinen, die auf Standardhardware sowohl DataNode- als auch TaskTracker-Dienste ausführen. Sie übernehmen die eigentliche Arbeit: das Speichern und Verarbeiten der Jobs gemäß den Anweisungen der Master-Knoten. Der letzte Teil des Systems sind die Client-Knoten, die für das Laden der Daten und das Abrufen der Ergebnisse verantwortlich sind.

Die Größe eines Hadoop-Clusters wird durch eine Reihe von Metriken bestimmt, die Speicher- und Datenverarbeitungsfunktionen für die Ausführung von Hadoop-Workloads definieren, nämlich:
