Apache Hadoop est un framework logiciel et un moteur de traitement des données open source basé sur Java. Il permet de diviser les tâches de traitement analytique Big Data en tâches plus petites qui peuvent être exécutées en parallèle en utilisant un algorithme (comme l'algorithme MapReduce) et en les distribuant sur un cluster Hadoop. Un cluster Hadoop est un ensemble d'ordinateurs appelés nœuds, mis en réseau pour accomplir ce type de calculs parallèles sur de grands datasets. Contrairement aux autres clusters informatiques, les clusters Hadoop sont spécialement conçus pour héberger et analyser des quantités massives de données structurées et non structurées dans un environnement de calcul distribué. Les écosystèmes Hadoop se distinguent également des autres clusters informatiques par leur structure et leur architecture uniques. Les clusters Hadoop se composent d'un réseau de nœuds principaux et subordonnés qui exploitent un matériel générique à haute disponibilité et faible coût. Parce qu'ils peuvent grandir de façon linéaire et qu'il est facile d'ajouter ou de supprimer des nœuds en fonction de la demande, ils sont particulièrement adaptés aux tâches d'analytique Big Data dont les datasets varient considérablement en taille.
Les clusters Hadoop sont composés d'un réseau de nœuds maîtres et de nœuds de travail qui orchestrent et exécutent les diverses tâches sur le système de fichiers distribué Hadoop. Les nœuds maîtres utilisent généralement du matériel de meilleure qualité et comprennent un NameNode, un Secondary NameNode et un JobTracker, chacun fonctionnant sur une machine séparée. Les travailleurs sont constitués de machines virtuelles, exécutant à la fois les services DataNode et TaskTracker sur du matériel standard, et effectuent le véritable travail de stockage et de traitement des tâches tel qu'indiqué par les nœuds maîtres. La dernière partie du système sont les nœuds clients, qui sont responsables du chargement des données et de la récupération des résultats.

La taille d'un cluster Hadoop est un ensemble d'indicateurs qui définissent les capacités de stockage et de calcul permettant d'exécuter des charges utiles Hadoop :
