Un pacchetto R che fornisce una sintassi in stile dplyr per Apache Spark, consentendo agli utenti R di eseguire la manipolazione dei dati distribuiti e l'apprendimento automatico su enormi set di dati
Sparklyr è un pacchetto open-source che fornisce un'interfaccia tra R e Apache Spark. In questo modo è possibile sfruttare le funzionalità di Spark in un ambiente R moderno, grazie alla capacità di Spark di interagire con dati distribuiti con una latenza minima. Sparklyr è uno strumento efficace per interfacciarsi con grandi set di dati in un ambiente interattivo. Si ha così l'opportunità di sfruttare gli strumenti familiari di R per analizzare i dati in Spark, ottenendo ricavando il meglio da entrambi.
Tramite Sparklyr è possibile utilizzare Spark come backend per dplyr, un popolare pacchetto per la manipolazione dei dati. Sparklyr fornisce una serie di funzioni che permettono di accedere agli strumenti di Spark per la trasformazione e pre-elaborazione dei dati, oltre a interfacce per gli algoritmi distribuiti di machine learning di Spark e molto altro. Sparklyr è anche estensibile. È possibile creare pacchetti R che dipendono da Sparklyr per chiamare l'API Spark completa. Una di queste estensioni è Rsparkling di H2O, un pacchetto R compatibile con l'algoritmo machine learning di H2O.
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.