データセット

用語集のトップページへ
Datasetとは、Java および Scala 用のタイプセーフなSparkの構造化APIです。Python および R は動的型付け言語であるため、この API の使用はできませんが、Scala や Java で大規模なアプリケーションを作成するためには強力なツールです。DataFrame は、Row 型のオブジェクトの分散型コレクションであり、さまざまなタイプの表形式データを保持できます。Dataset API を使用すると、データフレーム内のレコードに Java クラスを割り当て、Java の ArrayList や Scala の Seq と同様に、型付きオブジェクトのコレクションとして処理できます。Dataset で使用できるAPIはタイプセーフで、Dataset 内のオブジェクトを、最初に配置したクラスとは別のクラスのものとして誤って表示することはありません。このため、明確に定義されたインターフェースを介してやりとりする必要のある大規模なアプリケーションを作成する場合、Dataset はソフトウェアエンジニアにとって魅力的です。Dataset クラスは、内部に含まれるオブジェクトの型でパラメータ化されます。Java では Dataset、Scala では Dataset[T]です。Spark 2.0では、サポートされるT型は Java の JavaBean パターンに従う全てのクラスと、Scala のケースクラスで、Spark が自動的にT型を分析し、Dataset内の表形式データに適切なスキーマを作成する必要があるため、これらの型は制限されます。データセット

関連リソース


用語集のトップページへ