Direkt zum Hauptinhalt

Was ist Sparklyr?

Ein R-Paket, das eine dplyr-ähnliche Syntax für Apache Spark bereitstellt und es R-Benutzern ermöglicht, verteilte Datenmanipulation und maschinelles Lernen auf massiven Datensätzen durchzuführen.

4 Personas Analytics AIBI 5a

Summary

  • Bietet die vertraute tidyverse dplyr-Syntax (select, filter, mutate, group_by), die sich nahtlos in verteilte Spark-Operationen auf Datensätzen übersetzen lässt, die für die lokale R-Verarbeitung zu groß sind.
  • Integriert sich mit Spark MLlib und H2O SparkingWater für verteiltes maschinelles Lernen und unterstützt benutzerdefinierte Funktionen über spark_apply für skalierbare, individuelle R-Berechnungen.
  • Verbindet sich über die Methode 'databricks' in spark_connect mit Databricks-Clustern, arbeitet mit SparkR zusammen und ist mit RStudio für interaktive Entwicklung und Fehlersuche kompatibel.

Was ist Sparklyr?

Sparklyr ist ein Open-Source-Paket, das eine Schnittstelle zwischen R und Apache Spark bereitstellt. Dank der Fähigkeit von Spark, mit verteilten Daten mit geringer Latenz zu interagieren, können Sie jetzt die Funktionen von Spark in einer modernen R-Umgebung nutzen. Sparklyr ist ein effektives Werkzeug für die Interaktion mit großen Datensätzen in einer interaktiven Umgebung. Auf diese Weise können Sie von den vertrauten Tools in R profitieren, um Daten in Spark zu analysieren, und erhalten so das Beste aus beiden Welten. Sparklyr Durch Sparklyr können Sie Spark als Backend für dplyr nutzen, ein beliebtes Paket zur Datenmanipulation Sparklyr bietet eine Reihe von Funktionen, mit denen wir auf die Spark-Tools zur Transformation/Vorverarbeitung von Daten zugreifen können. Darüber hinaus bietet es auch Schnittstellen zu den verteilten Machine-Learning-Algorithmen von Spark und vieles mehr Sparklyr ist auch erweiterbar. Es können R-Pakete erstellt werden, die von Sparklyr abhängig sind, um die vollständige Spark-API aufzurufen. Eine solche Erweiterung ist Rsparkling von H2O, ein R-Paket, das mit dem ML-Algorithmus von H2O kompatibel ist.

5-FACHER LEADER

Gartner®: Databricks als Leader für Cloud-Datenbanken

Hier die interessantesten Funktionen von Sparklyr:

  • Benutzer können Spark-Daten interaktiv mit dplyr und SQL (über DBI) ändern.
  • Spark-Datasets können gefiltert und aggregiert und anschließend zur Analyse in R übertragen werden.
  • Benutzer können verteiltes Machine Learning aus R mithilfe von Spark MLlib oder H2O Sparkling Water orchestrieren.
  • Sparklyr-Benutzer können Erweiterungen generieren, die die vollständige Spark-API aufrufen und Schnittstellen zum Spark-Paket bereitstellen.
  • Sparklyr-Tools bieten ein umfassendes dplyr-Backend, das bei Datenänderung, Datenanalyse und Datenvisualisierung nützlich ist
  • Lädt Daten von verschiedenen Speicherorten in Spark DataFrames, z. B. von lokalen R-DataFrames, Hive-Tabellen, CSV-, JSON- und Parquet-Dateien.
  • Sparklyr kann sowohl eine Verbindung zu lokalen Spark-Instanzen als auch zu Remote-Spark-Clustern herstellen.


 

Zusätzliche Ressourcen

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.