Apache Hadoop es un marco de software de código abierto basado en Java y un motor de procesamiento de datos en paralelo. Permite que las tareas de procesamiento de análisis de big data se dividan en tareas más pequeñas que se pueden realizar en paralelo mediante el uso de un algoritmo (como el algoritmo MapReduce) y distribuyéndolas en un clúster de Hadoop. Un clúster de Hadoop es una colección de computadoras, conocidas como nodos, que están conectadas en red para realizar este tipo de cálculos paralelos en conjuntos de big data. A diferencia de otros clústeres informáticos, los clústeres de Hadoop están diseñados específicamente para almacenar y analizar grandes cantidades de datos estructurados y no estructurados en un entorno de cómputo distribuido. Además, los ecosistemas de Hadoop se distinguen de otros clústeres informáticos por su estructura y arquitectura únicas. Los clústeres de Hadoop consisten en una red de nodos maestros y esclavos conectados que utilizan hardware básico de alta disponibilidad y bajo costo. La capacidad de escalar linealmente y agregar o restar nodos rápidamente según las demandas de volumen los hace adecuados para trabajos de análisis de big data con conjuntos de datos de tamaño muy variable.
Los clústeres de Hadoop están compuestos por una red de nodos maestros y de trabajo que orquestan y ejecutan los diversos trabajos en todo el sistema de archivos distribuido de Hadoop. Los nodos maestros suelen usar hardware de mayor calidad e incluyen NameNode, Secondary NameNode y JobTracker, cada uno de los cuales se ejecuta en una máquina separada. Los nodos de trabajo consisten en máquinas virtuales que ejecutan los servicios DataNode y TaskTracker en hardware de bajo costo, y realizan el trabajo real de almacenar y procesar las tareas según las indicaciones de los nodos maestros. La parte final del sistema son los nodos de cliente, que se encargan de cargar los datos y obtener los resultados.

El tamaño de un clúster de Hadoop es un conjunto de métricas que definen las capacidades de almacenamiento y cómputo para ejecutar cargas de trabajo de Hadoop, a saber:
