Sparklyr es un paquete de código abierto que proporciona una interfaz entre R y Apache Spark. Ahora puedes aprovechar las capacidades de Spark en un entorno de R moderno, gracias a la capacidad de Spark para interactuar con datos distribuidos con baja latencia. Sparklyr es una herramienta eficaz para interactuar con grandes conjuntos de datos en un entorno interactivo. De esta manera, puedes beneficiarte de las herramientas conocidas de R para analizar datos en Spark, lo que te da lo mejor de ambos mundos.
A través de Sparklyr, puedes usar Spark como el backend para dplyr, un popular paquete de manipulación de datos. Sparklyr ofrece una variedad de funciones que nos permiten acceder a las herramientas de Spark para transformar/preprocesar datos. Además, también proporciona interfaces para los algoritmos de machine learning distribuidos de Spark y mucho más. Sparklyr también es extensible. Se pueden crear paquetes de R que dependan de Sparklyr para llamar a la API completa de Spark. Una de esas extensiones es Rsparkling de H2O, un paquete de R compatible con el algoritmo de machine learning de H2O.
