Spark SQL
Muchos científicos de datos, analistas y usuarios de inteligencia de negocios utilizan consultas SQL interactivas para explorar datos. Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de programación llamada DataFrames y también puede funcionar como un motor de consultas SQL distribuido. Permite que las consultas de Hadoop Hive sin modificar se ejecuten hasta 100 veces más rápido en las implementaciones y los datos existentes. También proporciona una potente integración con el resto del ecosistema de Spark (p. ej., la integración del procesamiento de consultas SQL con el aprendizaje automático).
¿Qué es Apache Spark SQL?
Spark SQL incorpora compatibilidad nativa de SQL en Spark y simplifica el proceso de consultar datos almacenados tanto en RDD (los conjuntos de datos distribuidos de Spark) como en fuentes externas. Spark SQL desdibuja convenientemente las líneas entre los RDD y las tablas relacionales. La unificación de estas potentes abstracciones les facilita a los desarrolladores combinar comandos SQL que consultan datos externos con análisis complejos, todo dentro de una sola aplicación. Concretamente, Spark SQL permitirá a los desarrolladores lo siguiente:
- Importa datos relacionales desde archivos Parquet y tablas de Hive
- Ejecutar consultas SQL sobre datos importados y RDD existentes
- Escribir RDD fácilmente en tablas de Hive o archivos Parquet
Spark SQL también incluye un optimizador basado en costos, almacenamiento en columnas y generación de código para acelerar las consultas. Al mismo tiempo, escala a miles de nodos y consultas de varias horas usando el motor Spark, que proporciona tolerancia a fallos completa en medio de la consulta, sin que tengas que preocuparte por usar un motor diferente para los datos históricos.
Hay más para explorar aquí
Recursos adicionales
- La guía del científico de datos para el eBook de Apache Spark™
- Documentación de Databricks para desarrolladores de SQL
- Bucketing 2.0: Mejora el rendimiento de Spark SQL eliminando el shuffle
- Presentación de Apache Spark 3.0: ahora disponible en Databricks Runtime 7.0
- Arquitectura de Lakehouse: de la visión a la realidad


