メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • エグゼクティブ向け
          • スタートアップ向け
            • レイクハウスアーキテクチャ
              • Mosaic Research
              • 導入事例
                • 注目の導入事例
                • パートナー
                  • クラウドプロバイダ
                    Databricks on AWS、Azure、GCP
                    • コンサルティング・SI
                      Databricks の構築・デプロイ、Databricks への移行のエキスパート
                      • 技術パートナー
                        既存のツールをレイクハウスに接続
                        • C&SI パートナー
                          レイクハウスの構築・デプロイメント、レイクハウスへの移行
                          • データパートナー
                            データコンシューマーのエコシステムにアクセス
                            • パートナーソリューション
                              業界・移行のニーズに応じたカスタムソリューション
                              • Databricks で構築
                                ビジネスの創造・マーケティング・成長
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • データエンジニアリング
                                            バッチ、ストリーミングデータのための ETL とオーケストレーション
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • データサイエンス
                                                データサイエンスの大規模な連携
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • アプリケーション開発
                                                    安全なデータと AI アプリを迅速に構築
                                                    • データベース
                                                      データアプリとAIエージェントのための Postgres
                                                    • 統合とデータ
                                                      • マーケットプレイス
                                                        データ、分析、AI のためのオープンマーケットプレイス
                                                        • IDE 統合
                                                          お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                          • パートナーコネクト
                                                            Databricks エコシステムの検索と統合
                                                          • ご利用料金
                                                            • Databricks のご利用料金
                                                              料金設定、DBU、その他
                                                              • コスト計算ツール
                                                                クラウド利用でのコンピュートコストの試算
                                                              • オープンソース
                                                                • オープンソーステクノロジー
                                                                  プラットフォームを支えるイノベーションをもっと詳しく
                                                                • 業界向け Databricks
                                                                  • 通信
                                                                    • メディア・エンターテイメント
                                                                      • 金融サービス
                                                                        • 官公庁・公共機関
                                                                          • 医療・ライフサイエンス
                                                                            • リテール・消費財
                                                                              • 製造
                                                                                • 全て見る
                                                                                • クロスインダストリーソリューション
                                                                                  • AI Agents
                                                                                    • サイバーセキュリティ
                                                                                      • マーケティング
                                                                                      • 移行・デプロイメント
                                                                                        • データの移行
                                                                                          • プロフェッショナルサービス
                                                                                          • ソリューションアクセラレータ
                                                                                            • ソリューションアクセラレータ一覧
                                                                                              成果を加速
                                                                                            • トレーニング・認定試験
                                                                                              • トレーニング概要
                                                                                                ニーズに合わせたカリキュラムを探す
                                                                                                • Databricks アカデミー
                                                                                                  Databricks ラーニングプラットフォームにサインインする
                                                                                                  • 認定
                                                                                                    スキル・認定で差別化を図る
                                                                                                    • 無料版
                                                                                                      専門家向けデータとAIツールを無料で学べます
                                                                                                      • 大学との連携
                                                                                                        Databricks を教材として活用
                                                                                                      • イベント
                                                                                                        • DATA+AI サミット
                                                                                                          • Data+AI ワールドツアー
                                                                                                            • AI Days
                                                                                                              • イベントカレンダー
                                                                                                              • ブログ・ポッドキャスト
                                                                                                                • Databricks ブログ
                                                                                                                  最新情報、製品発表、その他の情報
                                                                                                                  • Databricks Mosaic AIリサーチブログ
                                                                                                                    AI世代に関する最新リサーチ
                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                      ご相談・お問い合わせ
                                                                                                                      • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                        イノベーションを支えるデータリーダーのインサイト
                                                                                                                      • お役立ちリソース
                                                                                                                        • カスタマーサポート
                                                                                                                          • ドキュメント
                                                                                                                            • コミュニティ
                                                                                                                            • もっと詳しく
                                                                                                                              • リソースセンター
                                                                                                                                • デモセンター
                                                                                                                                  • アーキテクチャ センター
                                                                                                                                  • 企業概要
                                                                                                                                    • Databricks について
                                                                                                                                      • 経営陣
                                                                                                                                        • Databricks Ventures
                                                                                                                                          • ご相談・お問い合わせ
                                                                                                                                          • 採用情報
                                                                                                                                            • 採用情報概要
                                                                                                                                              • 求人情報
                                                                                                                                              • プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                  • 受賞歴と業界評価
                                                                                                                                                  • セキュリティと信頼
                                                                                                                                                    • セキュリティと信頼
                                                                                                                                                • 是非ご検討ください!
                                                                                                                                                • デモを見る
                                                                                                                                                • ログイン
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                • Databricks 無料トライアル
                                                                                                                                                1. ブログ
                                                                                                                                                2. /
                                                                                                                                                  機械学習
                                                                                                                                                3. /
                                                                                                                                                  記事

                                                                                                                                                RAG アプリケーションにおける LLM 評価のベストプラクティス

                                                                                                                                                Databricksドキュメンテーションボットに関するケーススタディ

                                                                                                                                                Best Practices for LLM Evaluation of RAG Applications

                                                                                                                                                公開日: September 12, 2023

                                                                                                                                                機械学習3 min read

                                                                                                                                                によって Quinn Leng、Kasey Uhlenhuth、Alkis Polyzotis による投稿

                                                                                                                                                この投稿を共有する

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                チャットボットは、大規模言語モデル (LLM) の強力なチャット機能と推論機能を活用するための、最も広く採用されているユースケースです。検索拡張生成 (RAG) アーキテクチャは、ナレッジベース (ベクトルストア経由) と生成モデル (例:GPT-3.5 や GPT-4) の利点を組み合わせて、ハルシネーションを削減し、最新の情報を維持し、ドメイン固有の知識を活用できるため、チャットボット開発における業界標準になりつつあります。しかし、チャットボットの応答品質の評価は、今日においても未解決の問題です。業界標準が定義されていないため、組織は人間による採点 (ラベリング) に頼っていますが、これは時間がかかり、大規模な実施が困難です。

                                                                                                                                                RAGアプリケーションを迅速かつ自信を持って本番運用にデプロイできるよう、理論を実践に応用し、LLMの自動評価のベストプラクティスを確立する手助けをしました。このブログは、DatabricksがLLM評価に関する知見を提供するために実施している一連の調査の第一弾です。この投稿のすべての調査は、Databricksのシニアソフトウェアエンジニアであり、 Databricksドキュメント AI Assistant の作成者でもある Quinn Leng によって実施されました。

                                                                                                                                                実践における自動評価の課題

                                                                                                                                                最近、LLMコミュニティでは、自動評価のために「審査員としてのLLM」の使用が模索されており、多くの人が自身のLLMの出力を評価するためにGPT-4のような強力なLLMを使用しています。lmsysグループの研究論文では、ライティング、数学、世界の知識に関するタスクの審査員として、様々なLLM(GPT-4、ClaudeV1、GPT-3.5)を使用することの実現可能性と長所/短所を探っています。

                                                                                                                                                このような素晴らしい研究にもかかわらず、LLM審査員を実際にどのように適用するかについては、まだ多くの未解決の疑問があります。

                                                                                                                                                • 人間の採点との整合性: 具体的には、ドキュメントQ&Aチャットボットにおいて、LLM審査員の採点は、回答の正確性、読みやすさ、網羅性の観点から、実際の人間の好みをどの程度反映しているのでしょうか?
                                                                                                                                                • 例を通じた精度: LLM審査員にいくつかの採点例を提供することの効果はどの程度か。また、それによってさまざまなメトリクスにおけるLLM審査員の信頼性と再利用性はどの程度向上するか?
                                                                                                                                                • 適切な評価尺度: フレームワークによって異なる評価尺度が使用されているため(例:AzureMLでは0から100、langchainではバイナリスケール)、どの評価尺度が推奨されますか?
                                                                                                                                                • ユースケース間の適用性: 同じ評価メトリック(例:正確性)で、評価メトリックをどの程度まで異なるユースケース(例:カジュアルなチャット、コンテンツの要約、検索拡張生成)で再利用できますか?

                                                                                                                                                RAGアプリケーションに効果的な自動評価を適用する

                                                                                                                                                私たちは、Databricksにおける自社のチャットボットアプリケーションの文脈で、上記の質問に対する考えられる選択肢を検討しました。私たちの調査結果は一般化できるものであり、貴社のチームがRAGベースのチャットボットをより低コストかつ高速に、効果的に評価する上で役立つと考えています。

                                                                                                                                                • 審査員としてのLLMは、80%以上の判定で人間の採点と一致しました。ドキュメントベースのチャットボット評価に審査員としてLLMを使用したところ、人間の審査員と同等の効果があり、80%以上の判定でスコアが完全に一致し、95%以上の判定で(0~3のスケールを使用)スコアの差が1以内でした。
                                                                                                                                                • GPT-3.5と例を使用してコストを削減。各採点スコアの例を提供すれば、GPT-3.5をLLM審査員として使用できます。コンテキストサイズの制限があるため、低精度の採点スケールを使用することのみが実用的です。GPT-4の代わりにGPT-3.5と例を使用することで、LLM審査員のコストを10分の1に削減し、速度を3倍以上向上させます。
                                                                                                                                                • 解釈を容易にするために低精度の採点スケールを使用します。0、1、2、3のような低精度の採点スコア、あるいはバイナリ(0、1)でさえ、0から10.0や0から100.0のような高精度のスケールと比較して精度をほぼ維持できることがわかりました。一方で、人間のアノテーターとLLM審査員の両方に採点基準を提供するのが非常に容易になります。低精度のスケールを使用することで、異なるLLM審査員(例:GPT-4とclaude2)間での採点スケールの一貫性も確保できます。
                                                                                                                                                • RAG アプリケーションには独自のベンチマークが必要です。モデルは、公開されている特化ベンチマーク(例:カジュアルなチャット、数学、クリエイティブ ライティングなど) ですが、それは他のタスク (例:特定のコンテキストから質問に答えるなど)で、優れたパフォーマンスを示すことがあります。ベンチマークは、ユースケースが一致する場合にのみ使用してください。つまり、RAG アプリケーションは RAG ベンチマークでのみ評価する必要があります。

                                                                                                                                                我々の調査に基づき、LLM審査員を使用する際には以下の手順を推奨します:

                                                                                                                                                1. 1〜5の評価尺度を使用します
                                                                                                                                                2. 採点ルールを理解するために、例を示さずに GPT-4 を LLM 評価者として使用する
                                                                                                                                                3. LLM審査員を、スコアごとに1つの例を付けたGPT-3.5に切り替える

                                                                                                                                                ベストプラクティスを確立するための私たちの方法論

                                                                                                                                                本稿の残りの部分では、これらのベストプラクティスを形成するために私たちが行った一連の**エクスペリメント**について順を追って説明します。

                                                                                                                                                エクスペリメントのセットアップ

                                                                                                                                                エクスペリメント設定

                                                                                                                                                 

                                                                                                                                                このエクスペリメントは 3 つのステップで構成されています:

                                                                                                                                                 

                                                                                                                                                1. 評価データセットの生成: Databricksのドキュメントから100の質問とコンテキストでデータセットを作成しました。コンテキストは、質問に関連するドキュメントの(チャンク)を表します。 


                                                                                                                                                  チャンク

                                                                                                                                                2. 解答シートの生成: 評価データセットを使用して、さまざまな言語モデルに回答を生成させ、質問、コンテキスト、回答のペアを「解答シート」と呼ばれるデータセットに保存しました。この調査では、GPT-4、GPT-3.5、Claude-v1、Llama2-70b-chat、Vicuna-33b、mpt-30b-chatを使用しました。
                                                                                                                                                3. 評点の生成: 解答用紙を基に、さまざまな LLM を使用して評点とその理由を生成しました。この評点は、正確性(加重: 60%)、包括性(加重: 20%)、可読性(加重: 20%)の複合スコアです。生成された回答における正確性を重視するため、この加重スキームを選択しました。他のアプリケーションではこれらの加重を異なる方法で調整する可能性がありますが、正確性は引き続き主要な要因であると予想されます。

                                                                                                                                                さらに、位置バイアスを回避し、信頼性を向上させるために、以下の手法が使用されました。

                                                                                                                                                • 再現性を確保するために低いtemperature(temperature 0.1)を使用します。
                                                                                                                                                • ペアワイズ比較ではなく、単一回答の採点。
                                                                                                                                                • 最終スコアを出す前に、LLMが評価プロセスについて推論できるようにするためのChain of thoughts。
                                                                                                                                                • LLM が各要素 (正確性、包括性、可読性) の各スコア値について、採点ルーブリック内のいくつかの例を提供される Few-shot 生成。

                                                                                                                                                エクスペリメント1: 人間による採点との整合性

                                                                                                                                                人間のアノテーターとLLM審査員間の一致度を確認するため、gpt-3.5-turboとvicuna-33bからの回答シート(採点スケール0-3)をラベリング会社に送り、人間によるラベルを収集しました。その後、その結果をGPT-4の採点出力と比較しました。以下が調査結果です:

                                                                                                                                                • 人間とGPT-4の審査員は、正解率と可読性のスコアにおいて80%以上の一致率に達することができます。そして、スコア差が1以下という要件に緩和すると、一致率は95%以上に達します。

                                                                                                                                                  人間対3.5人間対Vicuna

                                                                                                                                                Comprehensiveness(包括性)メトリックは整合性が低く、これは「comprehensive(包括的)」がCorrectness(正確性)やReadability(可読性)のようなメトリックよりも主観的に見えると共有してくれたビジネス関係者から聞いたことと一致しています。

                                                                                                                                                エクスペリメント2: 例による精度

                                                                                                                                                lmsysの論文では、このプロンプトを使用して、LLM審査員に、回答の有用性、関連性、正確性、深さ、創造性、詳細さのレベルに基づいて評価するよう指示しています。しかし、その論文では評価ルーブリックに関する詳細は共有されていません。私たちの調査から、多くの要因が最終スコアに大きく影響することがわかりました。例えば:

                                                                                                                                                • さまざまな要素の重要性: 有用性、関連性、正確性、深さ、創造性
                                                                                                                                                • Helpfulness(有用性)のような要素の解釈は曖昧です。
                                                                                                                                                • 回答が役立つが正確ではない場合など、異なる要因が互いに矛盾する場合

                                                                                                                                                私たちは、以下を試すことで、特定の採点スケールについてLLM審査員に指示するためのルーブリックを開発しました。

                                                                                                                                                1. 元のプロンプト: 以下は lmsys の論文で使用された元のプロンプトです。

                                                                                                                                                公平な審査員として、以下に表示されるユーザーの質問に対するAIアシスタントの回答の質を評価してください。評価では、回答の有用性、関連性、正確性、深さ、創造性、詳細さのレベルなどの要素を考慮してください。まず簡単な説明から評価を始めてください。できる限り客観的になってください。説明を提供した後、この形式に厳密に従って、回答を1から10のスケールで評価する必要があります
                                                                                                                                                 

                                                                                                                                                私たちはオリジナルのlmsys論文のプロンプトを修正し、正確性、網羅性、可読性に関するメトリクスを出力するようにしました。また、各スコアを提示する前に評価者が1行で理由を述べるように促すことで、思考の連鎖(chain-of-thought)推論の利点を活用しました。以下は、例を全く提供しないゼロショット版のプロンプトと、各スコアに1つずつ例を提供するフューショット版のプロンプトです。次に、同じ解答シートを入力として使用し、2つのプロンプトタイプから得られた採点結果を比較しました。

                                                                                                                                                1. ゼロショット学習: LLM審査員に、正確性、網羅性、可読性に関するメトリクスを出力させ、各スコアについて1行の正当化理由を提供するよう促します。

                                                                                                                                                公平な審査員として、提供されたコンテキストに基づき、提示された質問に対する回答の品質を評価してください。

                                                                                                                                                  提供されるコンテキスト、質問、回答ごとに呼び出す`grading_function`という関数が与えられます。これを使用して、回答の正確性、網羅性、読みやすさに関するあなたの推論とスコアを提出します。

                                                                                                                                                1. フューショット学習: スケール内の各スコアに明確な例を提供するために、ゼロショットプロンプトを適応させました。新しいプロンプト:

                                                                                                                                                公平な審査員として、提供されたコンテキストに基づき、提示された質問に対する回答の品質を評価してください。

                                                                                                                                                  提供されるコンテキスト、質問、回答ごとに呼び出す`grading_function`という関数が与えられます。これを使用して、回答の正確性、網羅性、読みやすさに関するあなたの推論とスコアを提出します。

                                                                                                                                                  

                                                                                                                                                  以下があなたの採点基準です:

                                                                                                                                                - 正確性: 回答が質問に正しく答えている場合、各スコアの詳細は以下のとおりです。

                                                                                                                                                - スコア0: 回答が完全に間違っている、質問について何も言及していない、または正解と完全に矛盾している。

                                                                                                                                                      - 例:「Databricksクラスタを終了する方法」と質問された際に、回答が空文字列、全く無関係な内容、「申し訳ありませんが、回答はわかりません」など。

                                                                                                                                                  - スコア1:回答が質問にある程度関連しており、質問の一つの側面について正しく答えている。

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: databricksクラスターを終了する方法

                                                                                                                                                - 回答: Databricksクラスターは、ユーザーがビッグデータを処理し、分散データ処理タスクを効率的に実行できるクラウドベースのコンピューティング環境です。

                                                                                                                                                - または回答: Databricksワークスペースで、「クラスター」tabに移動します。そして、これはもっとよく考える必要がある難しい質問です

                                                                                                                                                  - スコア2: 回答はほとんど質問に答えていますが、1つの重要な側面が欠落しているか、ハルシネーションを起こしています。

                                                                                                                                                - 例:

                                                                                                                                                - 質問: databricksクラスターを終了する方法は?」

                                                                                                                                                          - 回答:「Databricksワークスペースで、『クラスター』タブに移動します。」

                                                                                                                                                          アクティブなクラスターのリストから、終了したいクラスターを見つけます。

                                                                                                                                                          そうすると、すべてのクラスターを一度に終了するためのボタンが見つかります”

                                                                                                                                                  - スコア3:回答が質問に正しく答えており、主要な側面を見逃していない。

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: databricksクラスターを終了する方法

                                                                                                                                                          - 回答:Databricksワークスペースで、『クラスター』タブに移動します。

                                                                                                                                                          アクティブなクラスターのリストから、終了したいクラスターを見つけます。

                                                                                                                                                          クラスター名の横にある下向き矢印をクリックして、クラスターの詳細を開きます。

                                                                                                                                                          「終了」ボタンをクリックします。確認ダイアログが表示されます。もう一度「終了」をクリックして、アクションを確認します。」

                                                                                                                                                - Comprehensiveness(包括性): 回答はどの程度包括的か、質問のすべての側面を完全に網羅し、包括的な説明やその他の必要な情報を提供しているか。以下は、さまざまなスコアの詳細です。

                                                                                                                                                - スコア0: 通常、回答が完全に間違っている場合、包括性も0点になります。

                                                                                                                                                  - スコア 1: 回答は正しいが、質問に完全に答えるには短すぎる場合、包括性についてはスコア 1 を与えることができます。

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: Databricks API を使用してクラスターを作成する方法は?

                                                                                                                                                - 回答: まず、適切な権限を持つDatabricksアクセストークンが必要です。このトークンは、Databricks UIの「User Settings」オプションで生成できます。そして(残りは欠落)

                                                                                                                                                  - スコア 2: 回答は正しく、質問の主要な側面には大まかに答えていますが、詳細に関する説明が欠けています。または、ある小さな側面に関する詳細が完全に欠落しています。

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: Databricks API を使用してクラスターを作成する方法は?

                                                                                                                                                          - 回答:適切な権限を持つDatabricksアクセストークンが必要です。次にリクエストURLを設定し、それからHTTPリクエストを作成します。次に、リクエストのレスポンスを処理します。

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: Databricks API を使用してクラスターを作成する方法は?

                                                                                                                                                          - 回答:適切な権限を持つDatabricksアクセストークンが必要です。次にリクエストURLを設定し、それからHTTPリクエストを作成します。次に、リクエストのレスポンスを処理します。

                                                                                                                                                  - スコア 3: 回答は正しく、質問の主要な側面をすべて網羅しています。

                                                                                                                                                - 可読性: 回答はどの程度読みやすいか、回答の可読性を損なう冗長な情報や不完全な情報が含まれていないか。

                                                                                                                                                - スコア0: 回答が完全に判読不能な場合、例:読みづらい記号で埋め尽くされている場合。例:単語を繰り返し続けるため、段落の意味を理解することが非常に困難な場合。回答から有意義な情報を抽出できません。

                                                                                                                                                - スコア 1: 回答はかろうじて読める程度で、無関係な記号や単語の繰り返しがあるものの、おおよそ意味のある文章を構成しており、回答のある側面をカバーしている。

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: Databricks API を使用してクラスターを作成する方法は?

                                                                                                                                                          - 回答:あなた あなた  あなた  あなた  あなた  あなた には、適切な権限を持つDatabricksアクセストークンが必要です。そして、リクエストURLを設定する必要があり、その後HTTPリクエストを行うことができます。次に次に次に次に次に次に次に次に次に

                                                                                                                                                  - スコア 2: 回答は正しく、ほとんど読みやすいですが、可読性に影響を与える明白な部分が 1 つあります (無関係な部分への言及、単語の繰り返し)

                                                                                                                                                - 例:

                                                                                                                                                          - 質問: databricksクラスターを終了する方法

                                                                                                                                                          - 回答:Databricksワークスペースで、『クラスター』タブに移動します。

                                                                                                                                                          アクティブなクラスターのリストから、終了したいクラスターを見つけます。

                                                                                                                                                          クラスター名の横にある下向き矢印をクリックして、クラスターの詳細を開きます。

                                                                                                                                                「終了」ボタンをクリックします…………………………………..

                                                                                                                                                          確認ダイアログが表示されます。もう一度"Terminate"をクリックして、アクションを確定してください。

                                                                                                                                                - スコア3: 回答は正しく、読者にわかりやすく、可読性に影響を与える明白な部分はない。

                                                                                                                                                - その後の最終評価:

                                                                                                                                                    - 比率:正確性60% + 網羅性20% + 読みやすさ20%

                                                                                                                                                 

                                                                                                                                                このエクスペリメントから、いくつかのことを学びました:

                                                                                                                                                • GPT-4でFew-Shotプロンプトを使用しても、結果の一貫性に明らかな違いは見られませんでした。例を含む詳細な採点基準を導入した場合でも、様々なLLMモデルにわたるGPT-4の採点結果に、目立った改善は見られませんでした。興味深いことに、これによりスコアの範囲にわずかなばらつきが生じました。 

                                                                                                                                                gpt4zeroshot

                                                                                                                                                gpt4fewshot

                                                                                                                                                • GPT-3.5-turbo-16kにいくつかの例を含めると、スコアの一貫性が大幅に向上し、結果が使用可能になります。詳細な評価ルーブリック/例を含めると、GPT-3.5からの評価結果が非常に明らかに改善されます(右側のグラフ)。実際の平均スコア値はGPT-4とGPT-3.5でわずかに異なりますが(スコア3.0対スコア2.6)、ランキングと精度はかなり一貫しています
                                                                                                                                                • それとは対照的に、(左のスクリーンショット)採点基準なしで GPT-3.5 を使用すると、非常に一貫性のない結果となり、全く使い物になりません。
                                                                                                                                                • GPT-3.5-turbo-16k を使用していることに注意してくださいGPT-3.5-turbo ではなくプロンプトが 4k トークンを超える可能性があるためです。

                                                                                                                                                gpt35zero

                                                                                                                                                gpt35fewshot

                                                                                                                                                エクスペリメント3: 適切な採点スケール

                                                                                                                                                LLM-as-judgeの論文では、非整数の0〜10のスケール(つまり、float)を評価尺度に使用します。言い換えれば、最終スコアに高精度のルーブリックを使用しています。これらの高精度の尺度は、下流で次のような問題を引き起こすことがわかりました。

                                                                                                                                                • 一貫性: 評価者(人間とLLMの両方)は、高精度で採点する際に、同じスコアに対して同じ基準を維持するのに苦労しました。その結果、低精度の尺度から高精度の尺度に移行すると、審査員間での出力スコアの一貫性が低下することがわかりました。
                                                                                                                                                • 説明可能性: さらに、LLMが判定した結果を人間が判定した結果とクロス検証したい場合は、回答の評価方法に関する指示を提供する必要があります。高精度の評価尺度で各「スコア」に正確な指示を提供することは非常に困難です。例えば、5.6点と比較して5.1点と評価される回答の良い例は何でしょうか?

                                                                                                                                                私たちは、使用する「最適な」スケールに関するガイダンスを提供するために、さまざまな低精度の採点スケールでエクスペリメントを行い、最終的には 0~3 または 0~4 の整数スケールを推奨します (リッカート尺度にこだわる場合)。0-10、1-5、0-3、0-1 を試して、以下のことを学びました。

                                                                                                                                                • バイナリ採点は、「ユーザビリティ」や「良い/悪い」のような単純なメトリクスに有効です。
                                                                                                                                                • 0〜10のような尺度では、すべてのスコア間の識別基準を考案するのは困難です。

                                                                                                                                                gpt4grading

                                                                                                                                                gpt35grading

                                                                                                                                                上のプロットに示されているように、GPT-4とGPT-3.5はどちらも、精度の低い異なる採点スケールを使用しても結果の一貫したランキングを維持できます。したがって、0〜3や1〜5のような低い採点スケールを使用することで、精度と説明可能性のバランスを取ることが可能です)

                                                                                                                                                したがって、人間のラベルとの整合、スコアリング基準についての推論、範囲内の各スコアの例の提供を容易にするために、評点スケールとして 0~3 または 1~5 を使用することを推奨します。

                                                                                                                                                エクスペリメント 4: 様々なユースケースへの適用可能性

                                                                                                                                                「LLM-as-judge」論文では、LLM と人間の判断の両方が、Vicuna-13B モデルを GPT-3.5 の僅差の競合として位置づけていることが示されています:

                                                                                                                                                chatbotarena

                                                                                                                                                (この図はLLM-as-judgeの論文の図4からのものです:https://arxiv.org/pdf/2306.05685.pdf)

                                                                                                                                                 

                                                                                                                                                しかし、当社のドキュメントQ&Aユースケース用にモデル群のベンチマークをとったところ、コンテキストに基づいて質問に回答する場合、はるかに大規模なVicuna-33Bモデルでさえ、GPT-3.5より著しくパフォーマンスが低いことがわかりました。これらの調査結果は、GPT-4、GPT-3.5、および(エクスペリメント1で述べた)人間の評価者によっても検証されており、いずれもVicuna-33BのパフォーマンスがGPT-3.5よりも劣るという点で意見が一致しています。

                                                                                                                                                gpt4grading

                                                                                                                                                論文で提案されているベンチマークデータセットを詳しく調べたところ、3つのタスクカテゴリ(執筆、数学、知識)は、コンテキストに基づいて回答を統合するモデルの能力を直接反映したり、それに貢献したりしないことがわかりました。その代わりに、直感的には、ドキュメントQ&Aのユースケースでは、読解力と指示追従能力に関するベンチマークが必要となります。したがって、評価結果はユースケース間で転用できず、モデルが顧客のニーズをどの程度満たすことができるかを適切に評価するためには、ユースケース固有のベンチマークを構築する必要があります。

                                                                                                                                                MLflowを使用して、私たちのベストプラクティスを活用してください

                                                                                                                                                上記のエクスペリメントを通じて、さまざまな要因がチャットボットの評価にどのように大きな影響を与えるかを探り、評価者としての LLM がドキュメント Q&A ユースケースに対する人間の好みをほぼ反映できることを確認しました。Databricks では、これらの調査結果に基づいてチームが LLM アプリケーションを効果的に評価できるよう、MLflow 評価 API を進化させています。MLflow 2.4 では、さまざまなモデルのテキスト出力を横並びで比較するための LLM 向け評価 API が導入され、MLflow 2.6 では、有害性やパープレキシティのような評価用の LLM ベースのメトリクスが導入されました。そして、近い将来、評価者としての LLM をサポートするよう取り組んでいます!

                                                                                                                                                なお、私たちが調査で参照したリソースのリストを以下にまとめました:

                                                                                                                                                • Doc_qa repository
                                                                                                                                                  • エクスペリメントの実施に使用したコードとデータ
                                                                                                                                                • lmsysグループによるLLM-as-Judgeの研究論文
                                                                                                                                                  • この論文は、カジュアルチャットのユースケースでLLMを審査員として使用するための最初の研究であり、執筆、数学、一般知識のタスクにおいてLLM(GPT-4、ClaudeV1、GPT-3.5)を審査員として使用することの実現可能性と長所・短所を広範囲にわたって調査したものです。

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                関連記事

                                                                                                                                                この投稿を共有する

                                                                                                                                                Databricksの投稿を見逃さないようにしましょう

                                                                                                                                                興味のあるカテゴリを購読して、最新の投稿を受信トレイに届けましょう

                                                                                                                                                Sign up

                                                                                                                                                次は何ですか?

                                                                                                                                                KubrickDatabricksOGImage

                                                                                                                                                製造

                                                                                                                                                September 5, 2024/1分未満

                                                                                                                                                重機メンテナンスへの洞察を革新するGenAI

                                                                                                                                                Announcing Advanced Security and Governance in Mosaic AI Gateway

                                                                                                                                                生成 AI

                                                                                                                                                September 9, 2024/1分未満

                                                                                                                                                Mosaic AI Gatewayに高度なセキュリティとガバナンス機能が登場!

                                                                                                                                                databricks logo
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                製品
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • BI
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                オープンソース
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • BI
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                ソリューション
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                データの移行
                                                                                                                                                プロフェッショナルサービス
                                                                                                                                                ソリューションアクセラレータ
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                リソース
                                                                                                                                                ドキュメント
                                                                                                                                                カスタマーサポート
                                                                                                                                                コミュニティ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • AI Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • AI Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                企業情報
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                セキュリティと信頼
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                databricks logo

                                                                                                                                                Databricks Inc.
                                                                                                                                                160 Spear Street, 15th Floor
                                                                                                                                                San Francisco, CA 94105
                                                                                                                                                1-866-330-0121

                                                                                                                                                採用情報

                                                                                                                                                © Databricks 2026. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                                • プライバシー通知
                                                                                                                                                • |利用規約
                                                                                                                                                • |現代奴隷法に関する声明
                                                                                                                                                • |カリフォルニア州のプライバシー権利
                                                                                                                                                • |プライバシー設定