Ir al contenido principal

¿Qué es Sparklyr?

Un paquete R que proporciona una sintaxis estilo dplyr para Apache Spark, lo que permite a los usuarios de R realizar manipulaciones de datos distribuidos y aprendizaje automático en conjuntos de datos masivos.

4 Personas Analytics AIBI 5a

Summary

  • Proporciona la sintaxis tidyverse dplyr (seleccionar, filtrar, mutar, agrupar por) que se traduce sin problemas a operaciones distribuidas de Spark en conjuntos de datos demasiado grandes para el procesamiento local de R.
  • Se integra con Spark MLlib y H2O SparkingWater para el aprendizaje automático distribuido. Además, admite funciones definidas por el usuario a través de spark_apply para cálculos R personalizados a escala.
  • Se conecta a clústeres de Databricks mediante el método "databricks" en spark_connect, trabajando junto con SparkR y siendo compatible con RStudio para el desarrollo y la depuración interactivos.

¿Qué es Sparklyr?

Sparklyr es un paquete de código abierto que proporciona una interfaz entre R y Apache Spark. Ahora puedes aprovechar las capacidades de Spark en un entorno de R moderno, gracias a la capacidad de Spark para interactuar con datos distribuidos con baja latencia. Sparklyr es una herramienta eficaz para interactuar con grandes conjuntos de datos en un entorno interactivo. De esta manera, puedes beneficiarte de las herramientas conocidas de R para analizar datos en Spark, lo que te da lo mejor de ambos mundos. Sparklyr A través de Sparklyr, puedes usar Spark como el backend para dplyr, un popular paquete de manipulación de datos. Sparklyr ofrece una variedad de funciones que nos permiten acceder a las herramientas de Spark para transformar/preprocesar datos. Además, también proporciona interfaces para los algoritmos de machine learning distribuidos de Spark y mucho más. Sparklyr también es extensible. Se pueden crear paquetes de R que dependan de Sparklyr para llamar a la API completa de Spark. Una de esas extensiones es Rsparkling de H2O, un paquete de R compatible con el algoritmo de machine learning de H2O.

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

Puntos destacados de Sparklyr:

  • Los usuarios pueden manipular de forma interactiva los datos de Spark con dplyr y también con SQL (a través de DBI).
  • Los datasets de Spark se pueden filtrar y agregar y, luego, importarse a R para ser analizados.
  • Podrás organizar el aprendizaje automático distribuido desde R con Spark MLlib o H2O SparkingWater.
  • Los usuarios de Sparklyr pueden generar extensiones que llaman a la API completa de Spark y proporcionan interfaces para los paquetes de Spark.
  • La herramienta Sparklyr ofrece un backend de dplyr exhaustivo, útil para la manipulación, el análisis y la visualización de datos.
  • Carga datos en DataFrames de Spark desde diversas ubicaciones, como data frames locales de R, tablas de Hive y archivos CSV, JSON y Parquet.
  • Sparklyr se puede conectar tanto a instancias locales de Spark como a clústeres remotos de Spark


 

Recursos adicionales

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.