FinOpsチームとプラットフォームチームが実際に使いたくなるような、統合されたコストダッシュボードを自動化する方法を学びましょう。
によって Steven Muschler, ダニエル・マルティネス・アレバロ 、 Sadhana Bala による投稿
AI とデータへの投資価値を理解することは極めて重要ですが、52% 以上の企業が投資収益率 (ROI) を厳密に測定できていません [Futurum]。ROI を完全に可視化するには、プラットフォームの使用状況とクラウドインフラストラクチャを結びつけて、明確な財務状況を把握する必要があります。今日のデータプラットフォームは、ますます多様化するストレージおよびコンピュートアーキテクチャをサポートする必要があるため、データは利用可能であっても断片化されていることがよくあります。
Databricksでは、顧客はマルチクラウド、マルチワークロード、マルチチームの環境を管理しています。このような環境では、十分な情報に基づいて意思決定を行うために、一貫性のある包括的なコストのビューを持つことが不可欠です。
Databricksのようなプラットフォームにおけるコストの可視性の中核には、総所有コスト (TCO) という概念があります。
Databricks のようなマルチクラウドデータプラットフォームでは、TCO は 2 つの主要なコンポーネントで構成されます。
サーバーレス製品を使用すると、TCO の把握が簡単になります。コンピュートは Databricks によって管理されるため、クラウドインフラストラクチャのコストは Databricks のコストにバンドルされ、Databricks のシステムテーブルで直接コストを一元的に可視化できます(ただし、ストレージコストは引き続きクラウドプロバイダーで発生します)。
しかし、従来のコンピュート製品の TCO を理解することはより複雑です。ここでは、顧客はクラウド プロバイダーでコンピュートを直接管理します。つまり、Databricks プラットフォームのコストとクラウド インフラストラクチャのコストの両方を調整する必要があります。これらのケースでは、解決すべき 2 つの異なるデータソースがあります。
これらのソースを合わせることで、TCOの全体像が形成されます。環境が多くのクラスター、ジョブ、クラウドアカウントにまたがって成長するにつれて、これらのデータセットを理解することは、コストの可観測性と財務ガバナンスの重要な部分になります。
DatabricksのTCO測定の複雑さは、クラウドプロバイダーがコストデータを公開および報告する方法がばらばらであることによって、さらに増大します。これらのデータセットをシステムテーブルと結合して正確なコストKPIを作成する方法を理解するには、クラウド課金の仕組みに関する深い知識が必要です。これは、Databricksを中心とする多くのプラットフォーム管理者が持っていない可能性のある知識です。ここでは、Azure DatabricksとDatabricks on AWSのTCO測定について詳しく説明します。
Azure DatabricksはMicrosoft Azureエコシステム内のファーストパーティサービスであるため、Databricks関連の料金は、Databricks固有のタグも含め、他のAzureサービスと並んでAzure Cost Managementに直接表示されます。Databricksのコストは、Azure Cost analysis UIおよびコスト管理データとして表示されます。
しかし、Azure Cost Managementのデータには、Databricksのシステムテーブルにあるような、より詳細なワークロードレベル のメタデータやパフォーマンスメトリクスは含まれません。このため、多くの組織がAzureの課金エクスポートをDatabricksに取り込もうとしています。
しかし、これら 2 つのデータソースを完全に結合するには時間がかかり、深いドメイン知識も必要です。これは、ほとんどの顧客が定義、維持、複製する時間がないほどの労力を要します。これには、いくつかの課題があります。
AWS では、Databricks のコストは コストと使用状況レポート (CUR) と AWS Cost Explorer に表示されますが、Azure とは異なり、コストはより集約された SKU レベルで表示されます。さらに、Databricks が AWS Marketplace を通じて購入された場合、Databricks のコストは CUR にのみ表示されます。それ以外の場合、CUR には AWS インフラストラクチャのコストのみが反映されます。
この場合、AWS 環境をご利用のお客様にとって、システムテーブルと合わせて AWS CUR を共同分析す る方法を理解することは、さらに重要になります。これにより、チームはインフラストラクチャの支出、DBU の使用状況、割引をクラスターおよびワークロードレベルのコンテキストと合わせて分析し、AWS アカウントやリージョンを横断する、より完全な TCO ビューを作成できるようになります。
しかし、AWS CUR とシステム テーブルを結合することも困難な場合があります。一般的な問題点には、次のようなものがあります。
本番運用規模のDatabricks環境では、コストに関する問題はすぐに総支出額だけの問題ではなくなります。チームはコンテキストの中でコストを理解したい、つまり、インフラストラクチャとプラットフォームの使用状況が実際のワークロードや意思決定にどのように関連しているかを把握したいと考えています。一般的な質問は次のとおりです。
これらの質問に答えるには、クラウドプロバイダーの財務データと Databricks の運用メタデータをまとめる必要があります。しかし、上記のように、これを実現するために、チームは独自のパイプラインと、クラウドおよび Databricks の請求に関する詳細なナレッジベースを維持する必要があります。
このニーズに対応するため、DatabricksはCloud Infra Cost Field Solutionを導入しています。これは、Databricksプラットフォーム内でクラウドインフラストラクチャとDatabricksの使用状況データの取り込みと統合分析を自動化するオープンソースソリューションです。
Databricksのサーバーレスおよび従来のコンピューティング環境全体にわたるTCO分析のための統一された基盤を提供することで、フィールドソリューションは、組織がコストの可視性をより明確にし、アーキテクチャ上のトレードオフを理解するのに役立ちます。エンジニアリングチームはクラウド支出と割引を追跡できる一方、財務チームはコスト増の主なコストドライバーを特定できます。
次のセクションでは、ソリューションの仕組みと始め方について解説します。
コンポーネント名は異なる場合がありますが、Azure と AWS 両方の顧客向けの Cloud Infra Cost Field Solution は同じ原則を共有しており、次のコンポーネントに分類できます。
AWSとAzureの両方のフィールドソリューションは、単一クラウド内で事業を展開する組織にとって優れたものですが、Delta Sharingを使用することで、マルチクラウドのDatabricksをご利用のお客様向けに組み合わせることもできます。
Azure Databricks 向けクラウド インフラ コスト フィールド ソリューションは、以下のアーキテクチャ コンポーネントで構成されています。
Azure Databricks ソリューション アーキテクチャ

このソリューションをデプロイするには、管理者には Azure と Databricks にわたって以下の権限が必要です。
GitHubリポジトリには、より詳細なセットアップ手順が記載されています。しかし、大まかに言うと、Azure Databricks向けのソリューションには次の手順があります。
[Azure] Azure Cost Management Export を構成して Azure Billing データをストレージアカウントにエクスポートし、データが正常にエクスポートされていることを確認してください。
Azure Cost Management のエクスポートが構成されたストレージ アカウント

Azure Databricks の TCO を表示する AI/BI ダッシュボード

Databricks on AWS向けのソリューションは、連携してAWS コストと使用状況レポート (CUR) 2.0データを取り込み、メダリオンアーキテクチャを使用してDatabricksに永続化する、いくつかのアーキテクチャコンポーネントで構成されています。
このソリューションをデプロイするには、AWS と Databricks にわたって以下の権限と構成が設定されている必要があります。

GitHub リポジトリには、より詳細なセットアップ手順が記載されています。しかし、概要として、AWS Databricks のソリューションには次のステップが含まれます。

AzureとAWS両方のソリューションで示されているように、このようなソリューションによって、以下のような多くの実世界の例が実現可能になります。
実践的な例として、数千のワークロードを抱える大規模な組織のFinOps担当者は、一定のコストがかかるものの、CPUやメモリの使用率が低いワークロードを探すことで、最適化の ために手軽に達成できる改善点を見つけるというタスクを課されるかもしれません。組織のTCO情報がCloud Infra Cost Field Solutionを介して表示されるようになったため、担当者はそのデータをNode Timelineシステムテーブル (AWS、AZURE、GCP) と結合してこの情報を表示し、最適化が完了した時点でコスト削減額を正確に定量化できます。最も重要となる質問は、顧客それぞれのビジネスニーズによって異なります。例えば、General Motors社は、この種のソリューションを使用して上記の多くの質問やその他の質問に答え、レイクハウスアーキテクチャから最大限の価値を得られるようにしています。
Cloud Infra Cost Field Solution を導入すると、組織は Databricks と関連クラウドインフラの支出を組み合わせた、信頼できる単一の TCO ビューを取得でき、プラットフォーム間での手動によるコスト調整の必要がなくなります。このソリューションを使用して回答できる質問の例は次のとおりです。
プラットフォームおよび FinOps チームは、Databricks 内で直接、ワークスペース、ワークロード、ビジネスユニットごとの全コストをドリルダウンできます。これにより、使用状況を予算、アカウンタビリティモデル、FinOps の実践に合わせることがはるかに簡単になります。基盤となるすべてのデータは管理されたテーブルとして利用できるため、チームはダッシュボードや社内アプリといった独自のコストアプリケーションを構築したり、Databricks Genie のような組み込み AI アシスタントを使用したりできます。これにより、知見生成が加速し、FinOps は定期的なレポーティング作業から常時稼働の運用機能へと変わります。
今すぐ GitHub (linkは こちら) から Cloud Infra Cost Field Solution をデプロイし (AWS と Azure で利用可能)、Databricks の総支出に対する完全な可視性を獲得してください。完全な可視性を確保することで、インフラストラクチャ管理を自動化するserverlessの導入検討など、Databricks のコストを最適化できます。
このソリューションの一部として作成されるダッシュボードとパイプラインは、Databricks の支出を他のインフラストラクチャコストと合わせて分析し始めるための、迅速かつ効果的な方法を提供します。ただし、料金の割り当てと解釈は組織ごとに異なるため、ニーズに合わせてモデルと変換をさらに調整することができます。一般的な拡張には、アトリビューションの精度を向上させるためのインフラストラクチャ コスト データと追加の Databricks システム テーブル (AWS | AZURE | GCP) の結合、インスタンス プールを使用する際の共有 VM コストを分離または再割り当てするためのロジックの構築、VM 予約の異なる方法でのモデリング、長期的なコストの傾向をサポートするための履歴バックフィルの組み込みなどがあります。あらゆるハイパースケーラーのコストモデルと同様に、社内のレポーティング、タグ付け戦略、FinOps の要件に合わせて、デフォルトの実装を超えてパイプラインをカスタマイズする大きな余地があります。
Databricksのデリバリーソリューションアーキテクト(DSA)は、組織全体のデータとAIのイニシアチブを加速させ ます。彼らはアーキテクチャのリーダーシップを提供し、コストとパフォーマンスのためにプラットフォームを最適化し、開発者エクスペリエンスを向上させ、プロジェクトの実行を成功に導きます。DSAは、初期導入と本番レベルのソリューションとの間のギャップを埋め、データエンジニアリング、テクニカルリード、経営幹部、その他の利害関係者を含むさまざまなチームと緊密に連携して、カスタマイズされたソリューションと価値実現までの時間の短縮を保証します。DSAによるデータとAIのジャーニー全体にわたるカスタム実行計画、戦略的ガイダンス、サポートをご希望の場合は、Databricksアカウントチームにお問い合わせください。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。