Sparklyr
用語集のトップページへSparklyrとは
Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。Sparklyr は、インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより、Spark でデータを分析するために、R の使い慣れたツールを使用することが可能となり、R と Spark 両方のメリットを享受できます。
Sparklyrの主な特徴
- dplyr やSQL(DBI経由)を使用し、Sparkデータをインタラクティブに操作することが可能
- Sparkデータセットのフィルタリングと集計を実行し、Rでその結果を分析することが可能
- Spark MLlibまたはH2O SparkingWaterを使用し、Rから分散型機械学習を統合することが可能
- Spark APIを呼び出し、Sparkパッケージへのインターフェースを提供する拡張機能の作成が、Sparklyrユーザーにより実行可能
- Sparklyrツールによるデータの操作や分析、視覚化に有用な包括的なdplyrバックエンドの提供
- ローカルのRデータフレーム、Hiveテーブル、CSV、JSON、Parquetファイルなど、さまざまなデータソースからSpark DataFramesにデータを読み込むことが可能
- Sparkのローカルインスタンスおよびリモートクラスタへの接続が可能
関連リソース
用語集のトップページへ