¿Qué es Spark SQL?

Cómo Spark SQL le permite consultar datos estructurados con SQL familiar mientras aprovecha el rendimiento, la escalabilidad y la integración del ecosistema de datos de Spark

por Personal de Databricks

Descubra cómo Spark SQL incorpora compatibilidad nativa con SQL en Apache Spark para analizar grandes conjuntos de datos estructurados con consultas habituales.
Vea cómo Spark SQL utiliza DataFrames, optimización basada en costos y almacenamiento en columnas para ofrecer consultas de alto rendimiento a escala.
Descubra cómo Spark SQL se integra con el aprendizaje automático y el Lakehouse de Databricks para impulsar cargas de trabajo de análisis integrales.

Muchos científicos de datos, analistas y usuarios de inteligencia de negocios utilizan consultas SQL interactivas para explorar datos. Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de programación llamada DataFrames y también puede funcionar como un motor de consultas SQL distribuido. Permite que las consultas de Hadoop Hive sin modificar se ejecuten hasta 100 veces más rápido en las implementaciones y los datos existentes. También proporciona una potente integración con el resto del ecosistema de Spark (p. ej., la integración del procesamiento de consultas SQL con el aprendizaje automático).

¿Qué es Apache Spark SQL?

Spark SQL incorpora compatibilidad nativa de SQL en Spark y simplifica el proceso de consultar datos almacenados tanto en RDD (los conjuntos de datos distribuidos de Spark) como en fuentes externas. Spark SQL desdibuja convenientemente las líneas entre los RDD y las tablas relacionales. La unificación de estas potentes abstracciones les facilita a los desarrolladores combinar comandos SQL que consultan datos externos con análisis complejos, todo dentro de una sola aplicación. Concretamente, Spark SQL permitirá a los desarrolladores lo siguiente:

Importa datos relacionales desde archivos Parquet y tablas de Hive
Ejecutar consultas SQL sobre datos importados y RDD existentes
Escribir RDD fácilmente en tablas de Hive o archivos Parquet

Spark SQL también incluye un optimizador basado en costos, almacenamiento en columnas y generación de código para acelerar las consultas. Al mismo tiempo, escala a miles de nodos y consultas de varias horas usando el motor Spark, que proporciona tolerancia a fallos completa en medio de la consulta, sin que tengas que preocuparte por usar un motor diferente para los datos históricos.

Recursos adicionales

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs

¿Qué es Apache Spark SQL?

La guía de IA agéntica para la empresa

Recursos adicionales

Recibe las últimas publicaciones en tu bandeja de entrada

Sign up