Apache Spark™

Apache Spark es un motor de análisis unificado ultrarrápido para big data y aprendizaje automático. Fue desarrollado originalmente en UC Berkeley en 2009.

El proyecto de código abierto más grande en procesamiento de datos.

Desde su lanzamiento, Apache Spark, el motor de analítica unificado, fue adoptado rápidamente por empresas de una amplia gama de industrias. Las potencias de Internet como Netflix, Yahoo y eBay desplegaron Spark a gran escala, procesando en conjunto múltiples petabytes de datos en clústeres de más de 8000 nodos. Se convirtió rápidamente en la comunidad de código abierto más grande en big data, con más de 1000 colaboradores de más de 250 organizaciones.

El equipo que inició el proyecto de investigación Spark en UC Berkeley fundó Databricks en 2013.

Apache Spark es 100 % de código abierto, y está alojado en la Apache Software Foundation, independiente de cualquier proveedor. En Databricks, estamos totalmente comprometidos con mantener este modelo de desarrollo abierto. Junto con la comunidad de Spark, Databricks sigue contribuyendo significativamente al proyecto Apache Spark, tanto a través del desarrollo como de la evangelización comunitaria.

Ver el video

Qué es Apache Spark - Beneficios de Apache Spark

Velocidad

Diseñado desde cero pensando en el rendimiento, Spark puede ser 100 veces más rápido que Hadoop para el procesamiento de datos a gran escala gracias a que aprovecha la computación en memoria y otras optimizaciones. Spark también es rápido cuando los datos se almacenan en disco, y actualmente ostenta el récord mundial de clasificación en disco a gran escala.

Facilidad de uso

Spark tiene API fáciles de usar para operar en grandes conjuntos de datos. Esto incluye una colección de más de 100 operadores para transformar datos y API de marcos de datos familiares para manipular datos semiestructurados.

Un Motor Unificado

Spark viene empaquetado con bibliotecas de nivel superior, que incluyen soporte para consultas SQL, datos de transmisión, aprendizaje automático y procesamiento de gráficos. Estas bibliotecas estándar aumentan la productividad de los desarrolladores y pueden combinarse sin problemas para crear flujos de trabajo complejos.

Prueba Apache Spark en la nube de Databricks de forma gratuita

Databricks Unified Analytics Platform ofrece un rendimiento 5 veces mayor que Spark de código abierto, documentos interactivos colaborativos, flujos de trabajo integrados y seguridad empresarial, todo en una plataforma en la nube totalmente gestionada.

Prueba Databricks

El proyecto de código abierto Apache Spark puede descargarse aquí.