Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティブなど、一般的な学習アルゴリズムとユーティリティで構成されるスケーラブルな機械学習ライブラリです。Spark MLLibは、Spark SQL、Spark Streaming、 DataFrame などの他の Spark コンポーネントとシームレスに統合し、Databricks Runtimeにインストールされます。このライブラリは、Spark アプリケーションの一部として Java、Scala、および Python で使用可能であり、完全なワークフローに含めることができます。MLlibにより、データの前処理、書き換え、モデルのトレーニング、および大規模予測を行うことができますMLlibでトレーニングされたモデルを使用して、構造化ストリーミングで予測を行うことも可能です。Sparkは、分類から回帰、クラスタリング、深層学習まで、さまざまな機械学習タスクを実行するための高度な機械学習APIを提供します。 関連資料 マネージド MLflow Databricks、ガートナー「マジック・クアドラント」データサイエンス・機械学習プラットフォーム部門のリーダーに位置づけられる MLlib、MLflow、および Jupyter を使用した、詐欺対策ランダムフォレストの scikit-learn から Spark への移行 実用的な機械学習 | 仮想イベント 無料トレーニング:機械学習モデルの構築と展開