Sparklyr est un paquet open source qui fournit une interface entre R et Apache Spark. Vous pouvez désormais exploiter les capacités de Spark dans un environnement R moderne, car Spark peut interagir avec les données distribuées avec une faible latence. Sparklyr est un outil efficace qui sert d'interface avec les grands datasets dans un environnement interactif. Vous pouvez ainsi utiliser les outils bien connus de R pour analyser les données dans Spark, en profitant du meilleur des deux mondes.
Avec Sparklyr, vous pouvez utiliser Spark comme back-end de dplyr, un paquet de manipulation des données populaire. Sparklyr offre un large éventail de fonctions donnant accès aux outils Spark pour transformer et prétraiter les données. Surtout, il sert d'interface avec les algorithmes de machine learning distribué de Spark, entre autres. Autre avantage, Sparklyr est extensible. Il est possible de créer des paquets R dépendants de Sparklyr pour appeler toute l'API Spark. Rsparkling de H2O est justement une extension de ce type : ce paquet R est compatible avec l'algorithme de machine learning de H2O.
