Sparklyr
O que é o Sparklyr?
O Sparklyr é um pacote de código aberto que fornece uma interface entre R e Apache Spark. Agora, você pode aproveitar os recursos do Spark em um ambiente R moderno, graças à capacidade do Spark de interagir com dados distribuídos com pouca latência. O Sparklyr é uma ferramenta eficaz para interface com grandes conjuntos de dados em um ambiente interativo. Dessa forma, você pode se beneficiar das ferramentas familiares do R para analisar dados no Spark, obtendo o melhor dos dois mundos.
Destaques principais do Sparklyr:
- Os usuários podem manipular interativamente os dados do Spark usando dplyr e SQL (via DBI).
- Os conjuntos de dados do Spark podem ser filtrados, agregados e depois trazidos para R para serem analisados.
- Você poderá orquestrar o machine learning distribuído a partir do R usando o Spark MLLib ou o H2O SparkingWater.
- Os usuários do Sparklyr podem gerar extensões que chamam a API Spark completa e fornecer interfaces para pacotes do Spark.
- A ferramenta Sparklyr oferece um backend exaustivo do dplyr, útil em caso de manipulação, análise e visualização de dados
- Carrega dados em DataFrames Spark de vários locais, como quadros de dados R locais, tabelas Hive, CSV, JSON e arquivos Parquet.
- O Sparklyr consegue se conectar a instâncias locais do Spark, bem como a clusters remotos do Spark