Databricks で Spark を使用する
Apache Spark™ のオリジナルクリエイターによる Spark ワークロードを実行するための最良のプラットフォーム
シンプルで、クラス最高の優れた運用性と価格性能を提供する Databricks プラットフォームは、Apache Spark™ ワークロードの実行に最適です。
クラス最高の優れた運用性
Databricks は、何千ものお客さまが毎日数百万台もの VM を起動し、Spark アプリケーションを実行できるように支援しています。また、最新の開発者ツールやガイダンスをサポートしており、安心して簡単に Spark アプリケーションを開発・デプロイすることが可能です。
- Spark アプリケーションを個別に実行することも、Databricks ワークフローに簡単にデプロイすることもできます。
- フルマネージドのコンピュートリソース上で、宣言的データパイプラインの他のタスクタイプを使用して Spark ノートブックを実行します。
- ワークフロー監視により、Spark アプリケーションのパフォーマ ンスを長期にわたって簡単に追跡し、数回クリックするだけで問題を診断できます。
Spark ワークロードの価格性能を最大化
Databricks プラットフォーム上で Spark ワークロードを実行すると、Photon のメリットを享受できます。Photon は、Spark および SQL ワークロードのための高速な C++ ベクトル化実行エンジンで、Spark の既存のプログラミングインターフェースの背後で実行されます。Photon は、記録的な クエリ性能を低コストで提供し、AWS Graviton のような最新のハードウェアアーキテクチャを活用しています。
Databricks で Spark を使用すると、高速なパフォーマンスに加え、ダイナミックオートスケーリングなどの機能により全体的な TCO を削減するため、使用した分だけお支払いいただくことが可能です。また、Databricks は、GPU とスポットインスタンスも提供しています。
Databricks プラットフォームによるエンドツーエンド分析と統合ガバナンス
他のプラットフォームでは複数のツールを統合し、異なるガバナンスモデルを管理する必要があります。Databricks は、データウェアハウス、データレイク、データストリーミングを 1 つのシンプルなレイクハウスアーキテクチャに統合し、データエンジニアリング、分析、AI といった全てのユースケースをエンドツーエンドで処理します。オープンな高信頼性データ基盤によって構築されており、あらゆる種類のデータタイプを効率的に処理し、バッチとストリーミングを統合します。また、全データとクラウドプラットフォームに対して一貫したセキュリティとガバナンスモデルを適用します。
継続的なイノベーション
2022 年の SIGMOD Systems Award では、Spark はリレーショナル、ストリーミング、機械学習のワークロードを網羅する革新的で広く利用されているオープンソースの統合データ処理システムとしてを認められました。
そして、イノベーションは続いています。最近では、Spark Connect と Project Lightspeed を発表しました。
Spark Connect は、クライアントとサーバーを切り離すことで安定性を向上させ、あらゆる場所で Spark アプリケーションを利用できるようにします。
Project Lightspeed は、次世代の Spark 構造化ストリーミングです。予測可能な低遅延とイベント処理のための強化された機能を提供します。