Sparklyr è un pacchetto open-source che fornisce un'interfaccia tra R e Apache Spark. In questo modo è possibile sfruttare le funzionalità di Spark in un ambiente R moderno, grazie alla capacità di Spark di interagire con dati distribuiti con una latenza minima. Sparklyr è uno strumento efficace per interfacciarsi con grandi set di dati in un ambiente interattivo. Si ha così l'opportunità di sfruttare gli strumenti familiari di R per analizzare i dati in Spark, ottenendo ricavando il meglio da entrambi.
Tramite Sparklyr è possibile utilizzare Spark come backend per dplyr, un popolare pacchetto per la manipolazione dei dati. Sparklyr fornisce una serie di funzioni che permettono di accedere agli strumenti di Spark per la trasformazione e pre-elaborazione dei dati, oltre a interfacce per gli algoritmi distribuiti di machine learning di Spark e molto altro. Sparklyr è anche estensibile. È possibile creare pacchetti R che dipendono da Sparklyr per chiamare l'API Spark completa. Una di queste estensioni è Rsparkling di H2O, un pacchetto R compatibile con l'algoritmo machine learning di H2O.
