Hosted Spark とは何ですか?

リモートアプリケーション用の Spark クラスターへの REST API アクセスを備えた統合データプラットフォームにより、複数の言語でのインタラクティブなバッチデータ探索が可能になります。

によって Databricks Staff による投稿

REST APIを介して、Scala、Python、RのインタラクティブシェルとScala、Java、Pythonのバッチ送信をサポート。複数のユーザーがサーバーを共有し、コードを変更することなくどこからでもジョブを送信できます。
Sparkとアプリケーションサーバー間のターンキーインタラクションを容易にし、リモートアプリケーションをSparkクラスターに効率的に接続するためのサービスを通じて、インタラクティブなWebアプリやモバイルアプリに必要なアーキテクチャを合理化します。
汎用計算グラフをサポートする最適化されたエンジンを備えた多言語対応の高レベルAPIに加え、Spark SQL、MLlib機械学習、GraphXグラフ処理、Sparkストリーミング機能を提供し、包括的なデータ分析を実現します。

ホスト型の Spark とは

Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQL とデータフレーム用の Spark SQL、機械学習用の MLlib、グラフ処理用の GraphX、ストリーム処理用の Spark ストリーミングなど、他にもいくつかのツールもサポートしています。

データ探索のための 2 つの Spark のモード

対話型
バッチ

Spark 探索モードエンドユーザーとのインタラクションを簡素化するために、Spark は統一されたホスト型データプラットフォームとして組織にも提供されます。リモートアプリケーションから Spark リソースに直接アクセスできない場合、ユーザーは本番運用までに長い道のりを辿らなければなりませんでした。この障害を解決すべく、リモートアプリケーションがどこからでも REST API を介して Spark クラスタに効率的に接続できるサービスが開発されています。これらのインターフェースは、ローカルまたは Apache Hadoop YARN で実行される Spark コンテキストでのコードや、プログラムのスニペットの実行をサポートします。ホスト型の Spark インターフェースは、Spark とアプリケーションサーバー間のインタラクションを促進し、インタラクティブな Web やモバイルアプリで必要なアーキテクチャを合理化するため、ターンキーソリューションであることが証明されています。

ホストされた Spark サービスの機能：

Scala、Python、R へのインタラクティブな対応
Scala、Java、Python でのバッチ送信
複数のユーザーによる同じサーバーの共有
REST を介してユーザーがどこからでもジョブ送信が可能
コードの変更は不要で、好みのプログラムコードが使用できる作業環境

この機能は組織の Spark の運用を妨げる既存のボトルネックの克服を容易にし、ビッグデータ分析を活用した価値の獲得を促進しています。

Hosted Spark とは何ですか?

ホスト型の Spark とは

データ探索のための 2 つの Spark のモード

ホストされた Spark サービスの機能：

関連資料

最新の投稿を受信トレイで受け取る

Sign up

ホスト型の Spark とは

データ探索のための 2 つの Spark のモード

エンタープライズ向けエージェントAIプレイブック

ホストされた Spark サービスの機能：

関連資料

最新の投稿を受信トレイで受け取る

Sign up