¿Qué es Hadoop?

Un marco de código abierto con HDFS para almacenamiento distribuido y MapReduce para el procesamiento paralelo de conjuntos de datos masivos en clústeres de hardware básicos

Fundamentos de datos e IA19 min de lectura

Summary

HDFS divide los archivos en bloques de 128 MB replicados entre DataNodes para una mayor tolerancia a fallos. NameNode gestiona los metadatos en una arquitectura maestro-esclavo optimizada para patrones de escritura única y lectura múltiple.
MapReduce divide los trabajos en la fase de mapeo (procesamiento paralelo) y la fase de reducción (agregación), aunque Spark lo ha reemplazado en gran medida para un mejor rendimiento en algoritmos iterativos.
El ecosistema incluye Hive para consultas tipo SQL, HBase para almacenamiento NoSQL, Pig para scripting de flujo de datos, YARN para la gestión de recursos y se integra con Spark para análisis modernos.

Apache Hadoop es una plataforma de software de código abierto basada en Java que gestiona el procesamiento y almacenamiento de datos para aplicaciones de big data. La plataforma funciona distribuyendo trabajos de big data y análisis de Hadoop entre nodos en un clúster de computación y los divide en cargas de trabajo más pequeñas que se pueden ejecutar en paralelo. Algunos beneficios clave de Hadoop son la escalabilidad, la resiliencia y la flexibilidad. El Hadoop Distributed File System (HDFS) proporciona confiabilidad y resiliencia al replicar cualquier nodo del clúster a los otros nodos para la protección ante errores de hardware o software. La flexibilidad de Hadoop permite almacenar cualquier formato de datos, incluidos datos estructurados y no estructurados.

Sin embargo, las arquitecturas de Hadoop presentan una lista de desafíos, especialmente a medida que pasa el tiempo. Hadoop puede ser excesivamente complejo y requerir recursos y experiencia significativos para configurarlo, mantenerlo y actualizarlo. También es lento e ineficiente debido a las frecuentes lecturas y escrituras que se utilizan para realizar cálculos. La viabilidad a largo plazo de Hadoop continúa degradándose a medida que los principales proveedores de Hadoop comienzan a alejarse de la plataforma debido a que la necesidad acelerada de digitalizar ha alentado a muchas empresas a reevaluar su relación con Hadoop. La mejor solución para modernizar tu plataforma de datos es migrar de Hadoop a la plataforma Databricks Lakehouse. Lee más sobre los retos de Hadoop y el cambio hacia plataformas de datos modernas en nuestra publicación de blog.

¿Qué es la programación de Hadoop?

En el marco de Hadoop, el código se escribe principalmente en Java, pero parte del código nativo se basa en C. Además, las utilidades de línea de comandos suelen escribirse como scripts de shell. Para Hadoop MapReduce, Java se usa más comúnmente, pero a través de un módulo como Hadoop streaming, los usuarios pueden usar el lenguaje de programación de su elección para implementar el mapa y reducir funciones.

¿Qué es una base de datos Hadoop?

Hadoop no es una solución para el almacenamiento de datos ni para bases de datos relacionales. Sino que su propósito como marco de código abierto es procesar grandes cantidades de datos simultáneamente en tiempo real.

Los datos se almacenan en HDFS, pero se considera no estructurado y no califica como una base de datos relacional. De hecho, con Hadoop, los datos se pueden almacenar de forma no estructurada, semiestructurada o estructurada. Esto permite una mayor flexibilidad para que las empresas procesen big data de formas que satisfagan sus necesidades empresariales y más.

¿Qué tipo de base de datos es Hadoop?

Técnicamente, Hadoop no es en sí mismo un tipo de base de datos como SQL o RDBMS. En cambio, el marco Hadoop ofrece a los usuarios una solución de procesamiento para una amplia gama de tipos de bases de datos.

Hadoop es un ecosistema de software que permite a las empresas manejar grandes cantidades de datos en períodos breves. Esto se logra al facilitar el uso del procesamiento informático paralelo a gran escala. Diversas bases de datos, como Apache HBase, pueden distribuirse entre clústeres de nodos de datos contenidos en cientos o miles de servidores comerciales.

¿Cuándo se inventó Hadoop?

Apache Hadoop surgió de la necesidad de procesar volúmenes cada vez mayores de datos masivos y ofrecer resultados web más rápidos a medida que los motores de búsqueda como Yahoo y Google comenzaban a ganar terreno.

Doug Cutting y Mike Cafarella comenzaron Hadoop en 2002 mientras trabajaban en el proyecto Apache Nutch, inspirados por MapReduce de Google, un modelo de programación que divide una aplicación en pequeñas fracciones para ejecutarlas en diferentes nodos. Según un artículo del New York Times, Doug bautizó a Hadoop en honor al elefante de juguete de su hijo.

Unos años después, Hadoop se escindió de Nutch. Nutch se centró en el componente de rastreo web, y Hadoop se convirtió en la parte de computación y procesamiento distribuido. Dos años después de que Cutting se uniera a Yahoo, Yahoo lanzó Hadoop como un proyecto de código abierto en 2008. La Apache Software Foundation (ASF) puso Hadoop a disposición del público en noviembre de 2012 como Apache Hadoop.

¿Cuál es el impacto de Hadoop?

Hadoop fue un desarrollo importante en el ámbito del big data. De hecho, se le atribuye ser la base del lago de datos en la nube moderno. Hadoop democratizó el poder de cómputo e hizo posible que las empresas analizaran y consultaran grandes conjuntos de datos de manera escalable mediante software libre de código abierto y hardware económico y listo para usar.

Este fue un desarrollo significativo porque ofrecía una alternativa viable a las soluciones propietarias de almacén de datos (DW) y formatos de datos cerrados que hasta entonces habían dominado el panorama.

Con la introducción de Hadoop, rápidamente las organizaciones obtuvieron acceso a la capacidad de almacenar y procesar grandes cantidades de datos, mayor potencia de cálculo, tolerancia a errores, flexibilidad en la gestión de datos, menores costos en comparación con los almacenes de datos (DW) y mayor escalabilidad. En última instancia, Hadoop sentó las bases para futuros avances en el análisis de datos masivos, como la introducción de Apache Spark.

¿Para qué se usa Hadoop?

Cuando se trata de Hadoop, los casos de uso posibles son casi infinitos.

Venta minorista

Las grandes organizaciones tienen más datos de clientes disponibles que nunca. Aunque suele resultar difícil establecer conexiones entre grandes cantidades de datos que aparentemente no se relacionan entre sí. Cuando el minorista británico M&S implementó Cloudera Enterprise con tecnología Hadoop, quedaron más que impresionados con los resultados.

Cloudera utiliza soporte y servicios basados en Hadoop para la gestión y el procesamiento de datos. Poco después de implementar la plataforma basada en la nube, M&S descubrió que podía aprovechar con éxito sus datos para mejorar considerablemente sus análisis predictivos.

Esto les permitió utilizar el almacén de manera más eficiente y evitar la falta de existencias durante "picos inesperados" de demanda, y así, lograron obtener una gran ventaja sobre la competencia.

Finanzas

Hadoop quizás sea más adecuado para el sector financiero que cualquier otro. Desde el principio, el marco de software fue rápidamente identificado para su uso principal en el manejo de los algoritmos avanzados involucrados en la modelación de riesgos. Es precisamente el tipo de gestión de riesgos que podría ayudar a evitar el desastre de los swaps de crédito que condujo a la recesión de 2008.

Los bancos también se dieron cuenta de que esta misma lógica se aplica a la gestión del riesgo de las carteras de los clientes. Hoy en día, es habitual que las instituciones financieras implementen Hadoop para gestionar mejor la seguridad financiera y el rendimiento de los activos de sus clientes. JPMorgan Chase es solo uno de los muchos gigantes del sector que utilizan Hadoop para gestionar cantidades exponencialmente crecientes de datos de clientes de todo el mundo.

Asistencia médica

Ya sean nacionalizados o privatizados, los proveedores de atención médica de cualquier tamaño gestionan enormes volúmenes de datos e información de los clientes. Los marcos de Hadoop permiten a los médicos, enfermeros y cuidadores tener un acceso fácil a la información necesaria cuando la necesitan, y también facilitan la agregación de datos que proporcionan información procesable. Esto puede aplicarse a cuestiones de salud pública, diagnósticos y tratamientos mejores, y más.

Las instituciones académicas y de investigación también pueden aprovechar el marco de Hadoop para impulsar sus esfuerzos. Tomemos, por ejemplo, el campo de las enfermedades genéticas, que incluye el cáncer. Tenemos el genoma humano mapeado y hay casi tres mil millones de pares de bases en total. En teoría, todo lo necesario para curar un ejército de enfermedades está ahora justo delante nuestro.

Sin embargo, para identificar relaciones complejas, se necesitarán sistemas como Hadoop para procesar una cantidad tan grande de información.

Seguridad y aplicación de la ley

Hadoop también puede contribuir a mejorar la efectividad de la seguridad nacional y local. Cuando se trata de resolver delitos relacionados distribuidos en varias regiones, un marco de Hadoop puede agilizar el proceso para las fuerzas del orden al conectar dos eventos aparentemente aislados. Al reducir el tiempo necesario para establecer conexiones entre casos, las agencias podrán emitir alertas a otras agencias y al público lo más rápido posible.

En 2013, la Agencia de Seguridad Nacional (NSA) concluyó que el software de código abierto Hadoop era superior a las alternativas costosas que habían estado implementando. Ahora utilizan el marco para ayudar a detectar el terrorismo, la ciberdelincuencia y otras amenazas.

¿Cómo funciona Hadoop?

Hadoop es un marco que permite la distribución de grandes conjuntos de datos a través de un clúster de hardware de consumo. El procesamiento de Hadoop se realiza en paralelo en varios servidores simultáneamente.

Los clientes envían datos y programas a Hadoop. En términos sencillos, HDFS o Hadoop Distributed File System (un componente central de Hadoop) gestiona los metadatos y el sistema de archivos distribuido. Luego, Hadoop MapReduce procesa y convierte los datos de entrada/salida. Por último, YARN divide las tareas a lo largo del clúster.

Con Hadoop, los clientes pueden esperar un uso mucho más eficiente de los recursos básicos con alta disponibilidad y un punto de detección de fallas integrado. Además, los clientes pueden esperar tiempos de respuesta rápidos al realizar consultas con sistemas empresariales conectados.

En general, Hadoop aporta una solución relativamente sencilla para las organizaciones que buscan aprovechar al máximo los macrodatos.

¿En qué lenguaje está escrito Hadoop?

El propio marco de Hadoop está construido principalmente a partir de Java. Otros lenguajes de programación incluyen el código nativo en C y scripts de shell para líneas de comando. Sin embargo, los programas en Hadoop se pueden escribir en muchos otros lenguajes, incluidos Python o C++. Esto brinda a los programadores la flexibilidad de trabajar con las herramientas que mejor conocen.

Cómo utilizar Hadoop

Como ya se mencionó antes, Hadoop crea una solución fácil para las organizaciones que necesitan gestionar grandes volúmenes de datos. Pero eso no significa que siempre sea fácil de usar. Como podemos aprender de los casos de uso anteriores, la forma en que elijas implementar el marco de Hadoop es bastante flexible.

La forma en la que tus analistas de negocios, científicos de datos y desarrolladores decidan utilizar Hadoop dependerá totalmente de tu organización y tus objetivos.

Hadoop no es para todas las empresas, pero la mayoría de las organizaciones deberían reevaluar su relación con Hadoop. Si tu empresa maneja grandes cantidades de datos como parte de sus procesos principales, Hadoop ofrece una solución flexible, escalable y asequible que se adapta a tus necesidades. Luego, todo dependerá de la imaginación y las habilidades técnicas que tengan con tu equipo.

Ejemplo de consulta de Hadoop

A continuación se muestran algunos ejemplos de cómo realizar consultas en Hadoop:

Apache Hive

Apache Hive fue la primera solución preferida para consultar SQL con Hadoop. Este módulo emula el comportamiento, la sintaxis y la interfaz de MySQL para facilitar la programación. Es una excelente opción si ya utilizas aplicaciones Java de manera intensiva, ya que viene con una API de Java incorporada y controladores JDBC. Hive ofrece una solución rápida y sencilla para los desarrolladores, pero también es bastante limitada ya que el software es bastante lento y no cuenta con las capacidades de solo lectura.

IBM BigSQL

Esta oferta de IBM es un motor SQL de alto rendimiento para procesamiento paralelo masivo (MPP) en Hadoop. Su solución de consultas está diseñada para empresas que requieren facilidad en un entorno estable y seguro. Además de acceder a datos de HDFS, también puede hacer extracciones de RDBMS, bases de datos NoSQL, WebHDFS y otras fuentes de datos.

¿Qué comprende el ecosistema de Hadoop?

El término Hadoop es un nombre general que puede referirse a cualquiera de los siguientes:

El ecosistema general de Hadoop abarca tanto los módulos principales como los submódulos relacionados.
Los módulos principales de Hadoop incluyen el sistema de archivos distribuido de Hadoop (HDFS), Yet Another Resource Negotiator (YARN), MapReduce y Hadoop Common (que se analizan a continuación). Son los componentes básicos de una implementación típica de Hadoop.
Los submódulos relacionados con Hadoop incluyen a: Apache Hive, Apache Impala, Apache Pig, Apache Zookeeper y Apache Flume, entre otros. Estas herramientas de software relacionadas se pueden utilizar para personalizar, mejorar o ampliar la funcionalidad del núcleo de Hadoop.

¿Cuáles son los módulos básicos de Hadoop?

HDFS - Sistema de archivos distribuido de Hadoop. HDFS es un sistema basado en Java que permite almacenar grandes conjuntos de datos entre nodos en un clúster de manera tolerante a fallos.
YARN, Yet Another Resource Negotiator: otro negociador de recursos. YARN se utiliza para la gestión de recursos de clústeres, la planificación de tareas y la programación de trabajos que se ejecutan en Hadoop.
MapReduce: MapReduce es tanto un modelo de programación como un motor de procesamiento de big data que se utiliza para el procesamiento paralelo de grandes conjuntos de datos. Originalmente, MapReduce era el único motor de ejecución disponible en Hadoop. Sin embargo, más adelante, Hadoop agregó compatibilidad con otros, como Apache Tez y Apache Spark.
Hadoop Common: ofrece un conjunto de servicios en bibliotecas y utilidades para dar soporte a los demás módulos de Hadoop.

¿Cuáles son los componentes del ecosistema de Hadoop?

El ecosistema de Hadoop está compuesto por varios componentes centrales.

HDFS

El sistema de archivos distribuido de Hadoop es donde comienza y termina todo el almacenamiento de datos. Este componente gestiona grandes conjuntos de datos a través de varios nodos de datos estructurados y no estructurados. Al mismo tiempo, mantiene los metadatos en forma de archivos de registro. Hay dos componentes secundarios de HDFS: NameNode y DataNode.

NameNode

El Daemon maestro en Hadoop HDFS es NameNode. Este componente mantiene el espacio de nombres del sistema de archivos y regula el acceso de los clientes a dichos archivos. También se conoce como nodo maestro y almacena metadatos como la cantidad de bloques y sus ubicaciones. Consiste principalmente en archivos y directorios y realiza ejecuciones del sistema de archivos, como nombrar, cerrar y abrir archivos.

DataNode

El segundo componente es el daemon esclavo y se denomina DataNode. Este componente de HDFS almacena los datos o bloques reales mientras ejecuta las funciones de lectura y escritura solicitadas por el cliente. Esto significa que DataNode también es responsable de la creación, eliminación y replicación de réplicas según las instrucciones del Master NameNode.

El DataNode consta de dos archivos de sistema, uno para datos y otro para registrar metadatos de bloques. Cuando se inicia una aplicación, se lleva a cabo un apretón de manos entre los daemons maestro y esclavo para verificar el espacio de nombres y la versión del software. Cualquier falta de coincidencia apagará automáticamente el DataNode.

MapReduce

Hadoop MapReduce es el componente central de procesamiento del ecosistema Hadoop. Este software proporciona un marco sencillo para la creación de aplicaciones destinadas al manejo de grandes cantidades de datos estructurados y no estructurados. Esto se logra principalmente al facilitar el procesamiento paralelo de datos en varios nodos sobre hardware estándar.

MapReduce gestiona la programación de tareas desde el cliente. Las tareas solicitadas por los usuarios se dividen en tareas y procesos independientes. A continuación, estos trabajos de MapReduce se diferencian en subtareas entre los clústeres y nodos de los servidores comerciales.

Esto se logra en dos fases: la fase de mapeo y la fase de reducción. Durante la fase de mapeo, el conjunto de datos se convierte en otro conjunto de datos desglosado en pares clave/valor. Luego, la fase de reducción convierte la salida según lo indicado por el programador a través de la clase InputFormat.

Los programadores especifican dos funciones principales en MapReduce. La función Map es la lógica de negocio para el procesamiento de datos. La función Reduce genera un resumen y un agregado de la salida de datos intermedia de la función Map, y genera la salida final.

YARN

En términos sencillos, Hadoop YARN es una versión más nueva y mejorada de MapReduce. Sin embargo, esa no es una imagen completamente precisa. Esto se debe a que YARN también se utiliza para programar, procesar y ejecutar secuencias de tareas. Pero YARN es la capa de gestión de recursos de Hadoop, donde cada trabajo se ejecuta sobre los datos como una aplicación Java independiente.

Al actuar como el sistema operativo del marco, YARN permite realizar tareas como el procesamiento por lotes y el manejo de datos en una única plataforma. Muy por encima de las capacidades de MapReduce, YARN permite a los programadores crear aplicaciones de transmisión interactivas y en tiempo real.

YARN permite a los programadores ejecutar tantas aplicaciones como necesiten en el mismo clúster. Proporciona una base segura y estable para la gestión operativa y el uso compartido de los recursos del sistema, con el fin de lograr la máxima eficiencia y flexibilidad.

¿Cuáles son algunos ejemplos de software popular relacionado con Hadoop?

Otros paquetes populares que no forman estrictamente parte de los módulos principales de Hadoop pero que se usan frecuentemente junto con ellos incluyen:

Apache Hive es un software de almacén de datos que se ejecuta en Hadoop y permite a los usuarios trabajar con datos en HDFS utilizando un lenguaje de consulta similar a SQL llamado HiveQL.
Apache Impala es la base de datos analítica nativa y de código abierto para Apache Hadoop.
Apache Pig es una herramienta que se utiliza generalmente con Hadoop como una abstracción sobre MapReduce para analizar grandes conjuntos de datos representados como flujos de datos. Pig permite realizar operaciones como unir, filtrar, ordenar y cargar.
Apache Zookeeper es un servicio centralizado que permite un procesamiento distribuido altamente fiable.
Apache Sqoop es una herramienta diseñada para la transferencia eficiente de grandes volúmenes de datos entre Apache Hadoop y los almacenes de datos estructurados como las bases de datos relacionales.
Apache Oozie es un sistema de programación de flujos de trabajo para gestionar trabajos de Apache Hadoop. Los trabajos de flujo de trabajo de Oozie son grafos acíclicos dirigidos (DAGs) de acciones.

¿Te interesa esta información? Lee más sobre el ecosistema de Hadoop.

Cómo usar Hadoop para el análisis de datos

Dependiendo de las fuentes de datos y las necesidades de la organización, existen tres formas principales de utilizar el marco de Hadoop para el análisis.

Implementación en tus centros de datos corporativos

Esta suele ser una opción que ahorra tiempo y es económicamente viable para aquellas empresas que ya cuentan con los recursos necesarios. De lo contrario, la instalación del equipo técnico y del personal de TI necesarios puede sobrecargar los recursos económicos y del equipo. Esta opción ofrece a las empresas un mayor control sobre la seguridad y la privacidad de los datos.

Súbete a la nube

Las empresas que desean una implementación mucho más rápida, menores costos iniciales y menores requerimientos de mantenimiento querrán aprovechar un servicio basado en la nube. Con un proveedor de servicios en la nube, los datos y los análisis se ejecutan en un hardware estándar que existe en la nube. Estos servicios agilizan el procesamiento de grandes volúmenes de datos a un precio asequible, pero tienen ciertas desventajas.

En primer lugar, cualquier cosa que esté en la red pública de Internet es presa fácil para los hackers y similares. En segundo lugar, las interrupciones de servicio en los proveedores de Internet y red pueden paralizar los sistemas de tu empresa. Para los usuarios actuales del marco, esto puede implicar, por ejemplo, la necesidad de migrar de Hadoop a la arquitectura Lakehouse.

Proveedores locales

Aquellos que elijan aprovechar mejor el tiempo de actividad, privacidad y seguridad encontrarán las tres opciones en un proveedor de Hadoop local. Estos proveedores ofrecen lo mejor de ambos mundos. Pueden agilizar el proceso al ofrecer todo el equipo, software y servicio. Dado que la infraestructura es local, obtienes todos los beneficios que obtienen las grandes corporaciones al tener centros de datos.

¿Cuáles son los beneficios de Hadoop?

Escalabilidad: a diferencia de los sistemas tradicionales que limitan el almacenamiento de datos, Hadoop es escalable, ya que opera en un entorno distribuido. Esto permitió a los arquitectos de datos crear los primeros lagos de datos en Hadoop. Obtén más información sobre la historia y evolución de los lagos de datos.
Resiliencia: el sistema de archivos distribuidos de Hadoop (HDFS) fundamentalmente es resiliente. Los datos almacenados en cualquier nodo de un clúster de Hadoop también se replican en otros nodos para estar preparados ante posibles fallas de hardware o software. Este diseño intencionadamente redundante garantiza la tolerancia a fallas. Si un nodo falla, siempre hay una copia de seguridad de los datos disponible en el clúster.
Flexibilidad: a diferencia de los sistemas de gestión de bases de datos relacionales, cuando se trabaja con Hadoop, se pueden almacenar datos en cualquier formato, incluidos los formatos semiestructurados o no estructurados. Hadoop permite a las empresas acceder fácilmente a nuevas fuentes de datos y aprovechar diferentes tipos de datos.

¿Cuáles son los desafíos de las arquitecturas de Hadoop?

Complejidad: Hadoop es un marco de bajo nivel basado en Java que puede ser excesivamente complejo y difícil de manejar para los usuarios finales. Las arquitecturas Hadoop también pueden requerir una gran experiencia y recursos para su configuración, mantenimiento y actualización.
Rendimiento: Hadoop utiliza lecturas y escrituras frecuentes en disco para realizar cálculos, lo que consume mucho tiempo y resulta ineficiente en comparación con los marcos que buscan almacenar y procesar datos en la memoria lo más posible, como Apache Spark.
Viabilidad a largo plazo: en 2019, el mundo vio un desentrañamiento masivo dentro de la esfera de Hadoop. Google, cuyo artículo fundamental de 2004 sobre MapReduce sustentó la creación de Apache Hadoop, dejó de usar MapReduce por completo, como tuiteó Urs Hölzle, vicepresidente senior de Infraestructura Técnica de Google. También hubo fusiones y adquisiciones de muy alto perfil en el mundo de Hadoop. Además, en 2020, un proveedor líder de Hadoop cambió su catálogo de productos para dejar de centrarse en Hadoop, ya que ahora se considera que Hadoop es "más una filosofía que una tecnología". Por último, 2021 fue un año de cambios interesantes. En abril de 2021, Apache Software Foundation anunció la retirada de diez proyectos del ecosistema de Hadoop. Luego, en junio de 2021, Cloudera aceptó pasar a ser una empresa privada. El impacto de esta decisión en los usuarios de Hadoop aún está por verse. Este creciente conjunto de preocupaciones, junto con la acelerada necesidad de digitalizar, animó a muchas empresas a reevaluar su relación con Hadoop.

¿Qué empresas utilizan Hadoop?

La adopción de Hadoop se está convirtiendo en el estándar para empresas multinacionales exitosas. A continuación verás una lista de empresas que utilizan Hadoop hoy en día:

Adobe: los proveedores de software y servicios utilizan Apache Hadoop y HBase para el almacenamiento de datos y otros servicios.
eBay: utiliza el marco para la optimización de motores de búsqueda y la investigación.
A9: una filial de Amazon responsable de las tecnologías relacionadas con los motores de búsqueda y la publicidad relacionada con las búsquedas.
LinkedIn: como una de las redes sociales y profesionales más populares, la empresa utiliza muchos módulos de Apache, entre ellos Hadoop, Hive, Kafka, Avro y DataFu.
Spotify: el gigante sueco de transmisión de música utilizó el marco de Hadoop para análisis e informes, así como para la generación de contenido y recomendaciones de escucha.
Facebook: el gigante de las redes sociales mantiene el clúster de Hadoop más grande del mundo, con un conjunto de datos que, según se ha informado, crece a un ritmo de medio PB al día.
InMobi: la plataforma de marketing móvil utiliza tareas de HDFS y Apache Pig/MRUnit que involucran análisis, ciencia de datos y aprendizaje automático.

¿Cuánto cuesta Hadoop?

El propio marco de Hadoop es una aplicación de código abierto basada en Java. Esto significa que, a diferencia de otras alternativas de big data, es gratuito. Por supuesto, el costo del software de producto requerido depende de la escala.

Cuando se trata de servicios que implementan marcos de Hadoop, tendrás varias opciones de precios:

Por Nodo: más común.
Por TB
Producto freemium, con o sin soporte técnico solo por suscripción.
Paquete completo que incluye todo el hardware y software.
Servicio basado en la nube con sus propias opciones de precios desglosadas: básicamente, puedes pagar por lo que necesitas o pagar por uso.

Lee más sobre los desafíos de Hadoop y el cambio hacia plataformas de datos modernas en nuestra publicación de blog.