Resilient Distributed Dataset:
耐障害性分散データセット(RDD)
用語集のトップページへ

RDDの使用が適した5つのケース
- データセットに対し、低レベルの変換やアクション、管理を実行する場合
- 所有データがメディアストリームやテキストストリームなどの非構造化データである場合
- ドメイン固有言語ではなく、関数型プログラミングでデータを処理する場合
- 名前や列によるデータ属性の処理や、アクセスの際に、列指向フォーマットなどのスキーマの指定を厭わない場合
- 構造化・半構造化データに対するDataFramesやDatasetsの最適化機能や性能を必要としない場合
Apache Spark 2.0におけるRDDの役割
RDDが不要になり、廃止されることはありません。さらに言うと、DataFrameやDatasetとRDDの間では、シンプルなAPIメソッドを呼び出すことによりシームレスな移動が可能で、DataFramesやDatasetsは、RDDを基盤としています。関連リソース
用語集のトップページへ