A menudo nos preguntan cómo Apache Spark encaja en el ecosistema de Hadoop y cómo se puede ejecutar Spark en un clúster de Hadoop existente. Este blog busca responder estas preguntas.
Primero, Spark está diseñado para mejorar, no para reemplazar, el stack de Hadoop. Desde el primer día, Spark fue diseñado para leer y escribir datos desde y hacia HDFS, así como en otros sistemas de almacenamiento, como HBase y S3 de Amazon. Como tal, los usuarios de Hadoop pueden enriquecer sus capacidades de procesamiento combinando Spark con Hadoop MapReduce, HBase y otros frameworks de big data.
En segundo lugar, nos hemos centrado constantemente en que sea lo más fácil posible para que todos los usuarios de Hadoop aprovechen las capacidades de Spark. No importa si ejecutas Hadoop 1.x o Hadoop 2.0 (YARN), y no importa si tienes privilegios administrativos para configurar el clúster de Hadoop o no, ¡hay una forma de que puedas ejecutar Spark! En particular, existen tres formas de implementar Spark en un clúster de Hadoop: independiente, YARN y SIMR.
Implementación independiente: con la implementación independiente, se pueden asignar recursos de forma estática en todas las máquinas o en un subconjunto de ellas en un clúster de Hadoop y ejecutar Spark en paralelo con Hadoop MR. El usuario puede entonces ejecutar trabajos de Spark arbitrarios en sus datos de HDFS. Su simplicidad hace que esta sea la implementación preferida para muchos usuarios de Hadoop 1.x.
Implementaciónde Hadoop Yarn: los usuarios de Hadoop que ya implementaron o planean implementar Hadoop Yarn pueden simplemente ejecutar Spark en YARN sin necesidad de preinstalación ni de acceso administrativo. Esto permite a los usuarios integrar fácilmente Spark en su pila de Hadoop y aprovechar toda la potencia de Spark, así como de otros componentes que se ejecutan sobre Spark.
Spark In MapReduce (SIMR): Para los usuarios de Hadoop que aún no ejecutan YARN, otra opción, además del despliegue autónomo, es usar SIMR para lanzar trabajos de Spark dentro de MapReduce. ¡Con SIMR, los usuarios pueden empezar a experimentar con Spark y usar su shell a los pocos minutos de descargarlo! Esto reduce enormemente la barrera de la implementación y permite que prácticamente todo el mundo experimente con Spark.
Spark no solo interopera con Hadoop, sino también con otras tecnologías populares de big data.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Código aberto
2 de junio de 2025/6 min de lectura

