メインコンテンツへジャンプ

ホスト型のSpark

Databricks 無料トライアル

ホスト型の Spark とは

Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQL とデータフレーム用の Spark SQL、機械学習用の MLlib、グラフ処理用の GraphX、ストリーム処理用の Spark ストリーミングなど、他にもいくつかのツールもサポートしています。

データ探索のための 2 つの Spark のモード

  • 対話型
  • バッチ

Spark 探索モードエンドユーザーとのインタラクションを簡素化するために、Spark は統一されたホスト型データプラットフォームとして組織にも提供されます。リモートアプリケーションから Spark リソースに直接アクセスできない場合、ユーザーは本番運用までに長い道のりを辿らなければなりませんでした。この障害を解決すべく、リモートアプリケーションがどこからでも REST API を介して Spark クラスタに効率的に接続できるサービスが開発されています。これらのインターフェースは、ローカルまたは Apache Hadoop YARN で実行される Spark コンテキストでのコードや、プログラムのスニペットの実行をサポートします。ホスト型の Spark インターフェースは、Spark とアプリケーションサーバー間のインタラクションを促進し、インタラクティブな Web やモバイルアプリで必要なアーキテクチャを合理化するため、ターンキーソリューションであることが証明されています。

ホストされた Spark サービスの機能:

  • Scala、Python、R へのインタラクティブな対応
  • Scala、Java、Python でのバッチ送信
  • 複数のユーザーによる同じサーバーの共有
  • REST を介してユーザーがどこからでもジョブ送信が可能
  • コードの変更は不要で、好みのプログラムコードが使用できる作業環境

この機能は組織の Spark の運用を妨げる既存のボトルネックの克服を容易にし、ビッグデータ分析を活用した価値の獲得を促進しています。  

関連資料

用語集に戻る