MLflow GenAI評価のためのトークンベース価格設定の導入
によって アヴェシュ・シン, Euirim Choi, Samraj Moorjani 、 渡辺 佑紀 による投稿
高品質なGenAIエージェントは継続的な評価が必要です。しかし、テストをスケールアップすると、コストが予算を上回る可能性があります。Databricks上のMLflowを使用すると、チームはコストを気にすることなく、多くのメトリクスでエージェントをテストできます。
エージェントがプロトタイプから本番環境に移行するにつれて、成功は一般的なベンチマークだけでなく、ドメイン(例:契約、カスタマーサポート、申請書類)を理解することにかかっています。MLflowの定義済み評価指標は、プロンプトエンジニアリングに依存するのではなく、正確性、忠実性、関連性、安全性、および検索を自動的に評価することで役立ちます。
お客様から、本番環境スケールでの評価コストを改善する方法についてご要望がありました。そのため、本日より、固定ブロックの支払いではなく、トークンベースの料金設定を開始します。
10,000トレースの例
以前
現在
トークンベースのアプローチにより、コストを大幅に削減できるだけでなく、計算方法を完全に透明化できます。
効果的な評価プロンプトを作成するには、特にドメイン固有のアプリケーションにおいて、精度とトークン効率のバランスを取る必要があります。チームは、金融、ヘルスケア、または技術文書のために数週間かけて微調整しており、各グループが作業を繰り返しています。
そこで、MLflow GenAIの背後にある評価プロンプトをオープンソース化します。これらは、金融、ヘルスケア、技術文書、安全性などの業界固有のコンテキストで、実際のシナリオでうまく機能するように改良されています。そのまま使用するか、特定のユースケースに合わせて調整してください。
本番グレードのプロンプトは こちら でご覧いただけます。
これらのプロンプトは、以 下を含む厳格なベンチマークで検証されています:
組み込み評価指標は強力ですが、一部の組織では完全な制御が必要になります。これで、追加費用なしで評価のために独自のモデル(OpenAI、Anthropic、またはファインチューニングされたモデル)を接続できます。モデルの使用料のみお支払いいただきます。
これにより、以下が可能になります:
コスト効率の高い評価は、本番環境のニーズに合わせてスケールできなければ意味がありません。Databricks上のMLflow GenAI評価は以下を提供します:
新しい料金設定とオープンソースプロンプトは、すべてのDatabricks顧客がすぐに利用できます。開始方法は次のとおりです:
コストを95%削減し、本番環境でテスト済みのプロンプトをオープンソース化することで、大規模な評価を可能にします。金融、ヘルスケア、CXのいずれであっても、予算を圧迫することなくエージェントの品質を継続的に監視できます。
エージェント評価戦略を変革する準備はできましたか? 無料でお試しいただくか、ドキュメントをご覧ください。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。