Ir al contenido principal

¿Qué es Spark SQL?

Cómo Spark SQL le permite consultar datos estructurados con SQL familiar mientras aprovecha el rendimiento, la escalabilidad y la integración del ecosistema de datos de Spark

4 Personas Analytics AIBI 3c

Summary

  • Descubra cómo Spark SQL incorpora compatibilidad nativa con SQL en Apache Spark para analizar grandes conjuntos de datos estructurados con consultas habituales.
  • Vea cómo Spark SQL utiliza DataFrames, optimización basada en costos y almacenamiento en columnas para ofrecer consultas de alto rendimiento a escala.
  • Descubra cómo Spark SQL se integra con el aprendizaje automático y el Lakehouse de Databricks para impulsar cargas de trabajo de análisis integrales.

Muchos científicos de datos, analistas y usuarios de inteligencia de negocios utilizan consultas SQL interactivas para explorar datos. Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de programación llamada DataFrames y también puede funcionar como un motor de consultas SQL distribuido. Permite que las consultas de Hadoop Hive sin modificar se ejecuten hasta 100 veces más rápido en las implementaciones y los datos existentes. También proporciona una potente integración con el resto del ecosistema de Spark (p. ej., la integración del procesamiento de consultas SQL con el aprendizaje automático).

¿Qué es Apache Spark SQL?

Spark SQL incorpora compatibilidad nativa de SQL en Spark y simplifica el proceso de consultar datos almacenados tanto en RDD (los conjuntos de datos distribuidos de Spark) como en fuentes externas. Spark SQL desdibuja convenientemente las líneas entre los RDD y las tablas relacionales. La unificación de estas potentes abstracciones les facilita a los desarrolladores combinar comandos SQL que consultan datos externos con análisis complejos, todo dentro de una sola aplicación. Concretamente, Spark SQL permitirá a los desarrolladores lo siguiente:

  • Importa datos relacionales desde archivos Parquet y tablas de Hive
  • Ejecutar consultas SQL sobre datos importados y RDD existentes
  • Escribir RDD fácilmente en tablas de Hive o archivos Parquet

Spark SQL también incluye un optimizador basado en costos, almacenamiento en columnas y generación de código para acelerar las consultas. Al mismo tiempo, escala a miles de nodos y consultas de varias horas usando el motor Spark, que proporciona tolerancia a fallos completa en medio de la consulta, sin que tengas que preocuparte por usar un motor diferente para los datos históricos.  

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

Recursos adicionales

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.