Sparklyr ist ein Open-Source-Paket, das eine Schnittstelle zwischen R und Apache Spark bereitstellt. Dank der Fähigkeit von Spark, mit verteilten Daten mit geringer Latenz zu interagieren, können Sie jetzt die Funktionen von Spark in einer modernen R-Umgebung nutzen. Sparklyr ist ein effektives Werkzeug für die Interaktion mit großen Datensätzen in einer interaktiven Umgebung. Auf diese Weise können Sie von den vertrauten Tools in R profitieren, um Daten in Spark zu analysieren, und erhalten so das Beste aus beiden Welten.
Durch Sparklyr können Sie Spark als Backend für dplyr nutzen, ein beliebtes Paket zur Datenmanipulation Sparklyr bietet eine Reihe von Funktionen, mit denen wir auf die Spark-Tools zur Transformation/Vorverarbeitung von Daten zugreifen können. Darüber hinaus bietet es auch Schnittstellen zu den verteilten Machine-Learning-Algorithmen von Spark und vieles mehr Sparklyr ist auch erweiterbar. Es können R-Pakete erstellt werden, die von Sparklyr abhängig sind, um die vollständige Spark-API aufzurufen. Eine solche Erweiterung ist Rsparkling von H2O, ein R-Paket, das mit dem ML-Algorithmus von H2O kompatibel ist.
