2025年10月15日

95%低コストで高品質なドメイン固有のエージェントを構築

MLflow GenAI評価のためのトークンベース価格設定の導入

によってアヴェシュ・シン, Euirim Choi, Samraj Moorjani 、渡辺佑紀による投稿

評価コストを95%削減：MLflowの新しいトークンベースの価格設定により、厳密さを犠牲にすることなく日々の評価コストを削減します。
プロンプトのオープンソース化：金融、ヘルスケア、技術文書、安全性など、多岐にわたる本番環境でテスト済みの評価プロンプトにアクセスできます。
柔軟なジャッジオプション：組み込みの最適化モデルを使用するか、独自のLLMを持ち込むことで、コンプライアンス、コスト、ドメイン固有のニーズに大規模に対応します。

高品質なGenAIエージェントは継続的な評価が必要です。しかし、テストをスケールアップすると、コストが予算を上回る可能性があります。Databricks上のMLflowを使用すると、チームはコストを気にすることなく、多くのメトリクスでエージェントをテストできます。

定義済み評価指標に対する新しいトークンベースの料金モデル

エージェントがプロトタイプから本番環境に移行するにつれて、成功は一般的なベンチマークだけでなく、ドメイン（例：契約、カスタマーサポート、申請書類）を理解することにかかっています。MLflowの定義済み評価指標は、プロンプトエンジニアリングに依存するのではなく、正確性、忠実性、関連性、安全性、および検索を自動的に評価することで役立ちます。

お客様から、本番環境スケールでの評価コストを改善する方法についてご要望がありました。そのため、本日より、固定ブロックの支払いではなく、トークンベースの料金設定を開始します。

入力トークン100万件あたり0.15ドルが請求されます
出力トークン100万件あたり0.60ドルが請求されます
平均して、精度を損なうことなくコストが約95%削減されます

10,000トレースの例

以前

評価指標リクエストあたり0.0175ドル
リクエストあたり5,000トークン
結果：10,000トレース × 5評価指標 = 875ドル/日

現在

入力トークン100万件あたり0.15ドル
出力トークン100万件あたり0.60ドル
結果：10,000トレース × 5評価指標 = 45ドル/日
- 入力：50,000リクエスト × 4,000トークン × 0.15ドル/1M = 30ドル
- 出力：50,000リクエスト × 500トークン × 0.60ドル/1M = 15ドル

トークンベースのアプローチにより、コストを大幅に削減できるだけでなく、計算方法を完全に透明化できます。

MLflowのトレースは、LLM評価指標または人間のアノテーターによって自動的に評価できます。

バトルテスト済みの評価プロンプトのオープンソース化

効果的な評価プロンプトを作成するには、特にドメイン固有のアプリケーションにおいて、精度とトークン効率のバランスを取る必要があります。チームは、金融、ヘルスケア、または技術文書のために数週間かけて微調整しており、各グループが作業を繰り返しています。

そこで、MLflow GenAIの背後にある評価プロンプトをオープンソース化します。これらは、金融、ヘルスケア、技術文書、安全性などの業界固有のコンテキストで、実際のシナリオでうまく機能するように改良されています。そのまま使用するか、特定のユースケースに合わせて調整してください。

本番グレードのプロンプトはこちらでご覧いただけます。

これらのプロンプトは、以下を含む厳格なベンチマークで検証されています：

FinanceBench：金融文書の質問応答
HotPotQA：ドキュメントを横断するマルチホップ推論
DocsQA：技術文書の理解
RAGTruth：検索拡張生成の精度
Natural Questions：実際のGoogle検索クエリ
HarmBench：LLMの安全性
Databricks顧客データセット（許可を得て）

組み込み評価指標を超えて：独自のモデルを使用する

組み込み評価指標は強力ですが、一部の組織では完全な制御が必要になります。これで、追加費用なしで評価のために独自のモデル（OpenAI、Anthropic、またはファインチューニングされたモデル）を接続できます。モデルの使用料のみお支払いいただきます。

これにより、以下が可能になります：

モデル選択に関する特定のコンプライアンス要件を満たす
LLMプロバイダーとの既存のエンタープライズ契約を活用する
独自のデータでトレーニングされた専門モデルを使用する
評価パイプライン全体を制御する

初日から本番環境に対応

コスト効率の高い評価は、本番環境のニーズに合わせてスケールできなければ意味がありません。Databricks上のMLflow GenAI評価は以下を提供します：

Unity Catalog連携：エンタープライズグレードのセキュリティでトレースと評価データをガバナンスします
Delta Lakeストレージ：トレースと評価データをDelta形式で保存し、カスタムダッシュボードとデータパイプラインをトレースおよび評価データから構築できるようにします
完全なMLflow連携：トレースと評価結果をMLflowで直接表示します
サーバーレスコンピューティング：インフラストラクチャ管理なしで、使用した分だけ支払います

今すぐ始める

新しい料金設定とオープンソースプロンプトは、すべてのDatabricks顧客がすぐに利用できます。開始方法は次のとおりです：

既存のMLflow評価ユーザーの場合：評価指標は自動的に新しい料金モデルを使用します。操作は不要です
新規ユーザーの場合：クイックスタートガイドから始めてください。また、DatabricksでAIエージェントを構築する方法を理解するために、最新のコースを検討することもできます。
1. AIエージェントの基礎：AIエージェントの基本と、それらが組織に価値を創造する実世界の例に関する90分間の入門コース。
2. DatabricksでAIエージェントを始める：2時間強で、理論からDatabricksで最初のエージェントを構築してデプロイします。
MLflow OSSユーザー様へ: オープンソース化されたプロンプトを利用するには、MLflow 3.4.0以降にアップデートしてください。

生成AIアプリケーション評価の新章

コストを95%削減し、本番環境でテスト済みのプロンプトをオープンソース化することで、大規模な評価を可能にします。金融、ヘルスケア、CXのいずれであっても、予算を圧迫することなくエージェントの品質を継続的に監視できます。

エージェント評価戦略を変革する準備はできましたか？無料でお試しいただくか、ドキュメントをご覧ください。

(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事