Sparklyr
¿Qué es Sparklyr?
Sparklyr es un paquete de código abierto que proporciona una interfaz entre R y Apache Spark. Ahora puedes aprovechar las capacidades de Spark en un entorno de R moderno, gracias a la capacidad de Spark para interactuar con datos distribuidos con baja latencia. Sparklyr es una herramienta eficaz para interactuar con grandes conjuntos de datos en un entorno interactivo. De esta manera, puedes beneficiarte de las herramientas conocidas de R para analizar datos en Spark, lo que te da lo mejor de ambos mundos.
A través de Sparklyr, puedes usar Spark como el backend para dplyr, un popular paquete de manipulación de datos. Sparklyr ofrece una variedad de funciones que nos permiten acceder a las herramientas de Spark para transformar/preprocesar datos. Además, también proporciona interfaces para los algoritmos de machine learning distribuidos de Spark y mucho más. Sparklyr también es extensible. Se pueden crear paquetes de R que dependan de Sparklyr para llamar a la API completa de Spark. Una de esas extensiones es Rsparkling de H2O, un paquete de R compatible con el algoritmo de machine learning de H2O.
Puntos destacados de Sparklyr:
- Los usuarios pueden manipular de forma interactiva los datos de Spark con dplyr y también con SQL (a través de DBI).
- Los datasets de Spark se pueden filtrar y agregar y, luego, importarse a R para ser analizados.
- Podrás organizar el aprendizaje automático distribuido desde R con Spark MLlib o H2O SparkingWater.
- Los usuarios de Sparklyr pueden generar extensiones que llaman a la API completa de Spark y proporcionan interfaces para los paquetes de Spark.
- La herramienta Sparklyr ofrece un backend de dplyr exhaustivo, útil para la manipulación, el análisis y la visualización de datos.
- Carga datos en DataFrames de Spark desde diversas ubicaciones, como data frames locales de R, tablas de Hive y archivos CSV, JSON y Parquet.
- Sparklyr se puede conectar tanto a instancias locales de Spark como a clústeres remotos de Spark