すべての検索を価値ある体験に： Ibotta が Databricks で実現したオファー発見の革新

Making Every Search Rewarding: How Ibotta Transformed Offer Discovery With Databricks

Published: June 18, 2025

Summary

Ibottaは、Databricks Vector Searchを使用して検索体験を一新し、ハッカソンのプロトタイプからプロダクションシステムに移行しました。
新しいソリューションは、オファーの解除を約15%改善し、ボーナスエンゲージメントを増加させ、ゼロ結果の検索を70%以上減少させました。
カスタム評価フレームワークと微調整された埋め込みモデルにより、迅速な反復、高い関連性、そして何百万人ものユーザーにとってより報酬的な体験が可能になりました。

Ibottaでは、すべての購入を報酬にすることを使命としています。私たちのユーザー（私たちがセイバーと呼ぶ）が、直接消費者向け（D2C）アプリ、ブラウザ拡張機能、ウェブサイトを通じて関連するオファーを見つけて活用することは、このミッションの重要な部分です。私たちのD2Cプラットフォームは、数百万人のショッパーが日常の購入からキャッシュバックを得るのを助けています。それが食料品の取引を解除することであろうと、ボーナス報酬を獲得することであろうと、次の旅行を計画することであろうとです。Ibotta Performance Network（IPN）を通じて、私たちはWalmartやDollar Generalを含む小売業界の大手企業のホワイトラベルキャッシュバックプログラムも提供しており、2,600以上のブランドがパートナーエコシステム全体でデジタルオファーを通じて2億人以上の消費者にアクセスするのを助けています。

裏側では、データと機械学習のチームが、詐欺検出、オファー推奨エンジン、検索の関連性など、Saverの旅をパーソナライズし、安全にするための重要な体験を提供しています。スケールを続けるにつれて、すべてのタッチポイントですべてのインタラクションをサポートするデータ駆動型のインテリジェントシステムが必要になります。

D2CとIPNの両方で、検索はエンゲージメントにおいて重要な役割を果たし、私たちのビジネススケール、進化するオファーの内容、変わるセイバーの期待に追いつく必要があります。

この投稿では、私たちがD2C検索体験を大幅に洗練させた方法を説明します：野心的なハッカソンプロジェクトから、今や数百万人のセイバーに利益をもたらす堅牢なプロダクション機能へ。

私たちは、検索体験がもっと Savers（ユーザー）の期待に応えられるはずだと信じていました。

ユーザーの検索行動は、単純なキーワードから自然言語、スペルミス、会話フレーズを組み込むように進化しました。現代の検索システムは、ユーザーが入力する内容と彼らが実際に意味する内容の間のギャップを埋める必要があり、クエリの用語がコンテンツと完全に一致しない場合でも、コンテキストと関係を解釈して関連する結果を提供する必要があります。

Ibottaでは、当初自社で開発した検索システムが、時折、私たちのSaversの進化する期待に追いつくのに苦労し、それを改善する機会を見つけました。

私たちが見つけた機会の主要な領域は次のとおりです：

意味的な関連性の向上： 正確なキーワードマッチよりもセイバーの意図を理解することに焦点を当て、彼らを適切なオファーにつなげます。
理解力の強化： ユーザーのクエリの全体的なニュアンスとコンテキストを解釈し、より包括的で本当に関連性のある結果を提供します。
柔軟性の向上：新しいオファータイプをより迅速に統合し、Saverの検索パターンの変化に適応して、私たちのディスカバリーエクスペリエンスを報酬的に保つ。
発見性の向上： 特定の種類のオファーまたは主要なプロモーションが、幅広い関連検索クエリ全体で一貫して表示されることを確認するためのより堅牢なツールが欲しかった。
反復と最適化の加速： リアルタイムの調整とパフォーマンスチューニングを通じて、検索体験へのより速く、より大きな影響を与える改善を可能にする。

システムは、オファー内容、検索行動、進化するSaverの期待により適応できると信じていました。私たちは、Saverとブランドパートナーの両方に価値を増加させる機会を見つけました。

ハッカソンから製品化へ：Databricksを用いた検索の再構想

私たちの旧来の検索システムの制限を解消するためには、集中的な取り組みが必要でした。この取り組みは、データ、エンジニアリング、マーケティング分析、機械学習のメンバーを含むクロスファンクショナルチームが、Databricks Vector Searchを使用して現代的な代替検索システムを構築するというアイデアで一緒になった内部のハッカソン中に大きな勢いを得ました。

たった3日間で、私たちのチームは意味的に関連性のある検索結果を提供する実証可能な概念を開発しました。ここで私たちがそれをどのように行ったかを説明します：

私たちのDatabricksカタログから複数のソースからオファーコンテンツを収集しました
Python SDKを使用してベクトル検索のエンドポイントとインデックスを作成しました
4つの異なるモデル（BGE large、GTE large、GTE small、多言語オープンソースモデル、スペイン語特化モデル）を使用して、トークンごとに課金するエンベディングエンドポイントを使用しました。
ライブデモのためにすべてをウェブサイトに接続

ハッカソンプロジェクトは第一位を獲得し、プロトタイプをプロダクションシステムに移行するための強力な内部の賛同と勢いを生み出しました。数ヶ月の間に、Databricksチームとの緊密な協力のもと、私たちはプロトタイプを堅牢な本格的なプロダクション検索システムに変えました。

コンセプトの証明から製品化へ

ハッカソンのコンセプト証明を製品化準備完了のシステムに移行するには、慎重な反復とテストが必要でした。このフェーズは、技術的な統合やパフォーマンスのチューニングだけでなく、予想されるシステム改善がSaverの行動やエンゲージメントにポジティブな変化をもたらすかどうかを評価するためにも重要でした。検索の重要な役割と内部システム全体での深い統合を考慮に入れ、私たちは次のアプローチを選択しました：私たちは、元の検索システムを呼び出していた主要な内部サービスを修正し、それらの呼び出しをDatabricks Vector Searchエンドポイントへのリクエストに置き換え、堅牢で、優雅なフォールバックをレガシーシステムに組み込みました。

初期の作業の大部分は理解に焦点を当てていました：

Vector Search製品を最適に活用する方法
実証評価で最も性能の良いモデルを選択
トークンごとの使用料の限界をテストする
認証メカニズム
レート制限を避けるためにルート最適化埋め込みエンドポイントを使用する
スループット要件を処理するために、プロビジョニングされたモデル提供エンドポイントに移行しました

最初の月には、私たちのSaversの一部の小さなパーセンテージでテストを行いましたが、期待していたエンゲージメントの結果は得られませんでした。エンゲージメントは減少し、特に最もアクティブなSaversの間でクリック数、アンロック（Saversがオファーに興味を示すとき）、アクティベーションが減少しました。

しかし、Vector Searchソリューションは、以下を含む重要な利点を提供しました：

より速い応答時間
よりシンプルなメンタルモデル
データのインデックス化方法における柔軟性の向上
閾値を調整し、埋め込みテキストを変更する新たな能力

システムの基礎的な技術性能に満足しつつ、その柔軟性の高さを、検索結果の品質を反復的に改善し、期待外れのエンゲージメント結果を克服するための重要な利点と見ました。

セマンティック評価フレームワークの構築

初期のテスト結果を受けて、検索の反復に対してA/Bテストだけに依存することは明らかに非効率的で非現実的でした。検索品質に影響を与える変数の数は膨大であり、エンベディングモデル、テキストの組み合わせ、ハイブリッド検索設定、近似最近傍（ANN）の閾値、再ランキングオプションなどが含まれます。

この複雑さをナビゲートし、進歩を加速するために、私たちは堅牢な評価フレームワークを確立することにしました。このフレームワークは、私たちの特定のビジネスニーズに特別に合わせて作られ、オフラインのパフォーマンス指標から実際のユーザーエンゲージメントを予測する能力が必要でした。

私たちのフレームワークは、50以上のオンラインとオフラインの指標を追跡する合成評価環境を中心に設計されました。オフラインでは、関連性を測定するために、Mean Reciprocal Rank（MRR）やprecision@kなどの標準的な情報検索指標を監視しました。これは、オファーの解除やクリックスルーレートなどのオンラインのリアルワールドのエンゲージメントシグナルと組み合わせて使用されました。重要な決定は、LLMを判断者として実装することでした。これにより、オンラインのクエリ結果ペアとオフラインの出力の両方に品質スコアを割り当て、データをラベル付けすることができました。このアプローチは、信頼性の高いメトリクスに基づいた迅速な反復と、将来のモデルの微調整に必要なラベル付けされたデータを収集するために重要でした。

途中で、私たちはDatabricks Data Intelligence Platformの複数の部分に取り組みました。

Mosaic AI Vector Search： 評価テストのための高精度、セマンティックに豊かな検索結果を提供するために使用されました。
MLflowのパターンとLLM-as-a-judge： モデルの出力を評価し、データラベリングプロセスを実装するためのパターンを提供しました。
モデル提供エンドポイント: カタログから直接モデルを効率的にデプロイします。
AI Gateway: APIを通じて第三者のモデルへのアクセスを保護し、管理します。
Unity Catalog： 評価フレームワーク内で使用されるすべてのデータセットの組織化、管理、ガバナンスを確保しました。

この堅牢なフレームワークは、私たちの反復速度と自信を大幅に向上させました。我々は30以上の異なる反復を行い、ベクトル検索ソリューションにおける主要な変数の変更を系統的にテストしました：

異なる埋め込みモデル（基礎的なもの、オープンウェイト、API経由のサードパーティ）
モデルにフィードするためのさまざまなテキストの組み合わせ
異なるクエリモード（ANN対ハイブリッド）
ハイブリッドテキスト検索のための異なる列のテスト
ベクトル類似性の閾値を調整する
異なるオファータイプのための別々のインデックスの実験

評価フレームワークは私たちの開発プロセスを変革し、データ駆動型の意思決定を迅速に行い、それらをユーザーに公開する前に高い信頼性で潜在的な改善を検証することを可能にしました。

最適な既製モデルの探求

初期の広範なテストが期待外れのエンゲージメント結果を示した後、私たちはオフライン評価中に有望と判断された特定のモデルのパフォーマンスを探求することに焦点を当てました。私たちは、AI Gatewayを通じて安全にアクセスできる2つの第三者の埋め込みモデルを製品テストのために選択しました。これらのモデルを用いて、短期間で反復的なテストを製品環境で行いました（数日間）。

初期の結果に満足した私たちは、リーディングなサードパーティモデルとその最適化された設定をレガシーシステムと比較する、より長く、より包括的なプロダクションテストを実行することに進みました。このテストは混合した結果をもたらしました。エンゲージメント指標の全体的な改善を観察し、以前に見られた負の影響を成功裏に排除した一方で、これらの利益は控えめでした。主に一桁のパーセンテージの増加です。これらの増分的な利益は、既存の検索体験を完全に置き換えることを完全に正当化するには十分ではありませんでした。

しかし、より困難なのは、私たちの詳細な分析から得られた洞察でした：特定の検索クエリのパフォーマンスが大幅に向上した一方で、他のクエリは私たちの既存のソリューションと比較して結果が悪化しました。この不一致は、重大なアーキテクチャ上のジレンマを提示しました。予測されるパフォーマンスに基づいてクエリをルーティングする複雑なトラフィック分割システムを実装する、あるいは制限を受け入れるという、魅力的でない選択肢に直面しました。これは、2つの異なる検索体験を維持し、新たな複雑なルールベースのルーティング管理の層を導入することを必要とするアプローチです。

これは重要な節目でした。我々は進むための十分な約束を見ていましたが、自家製の検索システムを完全に置き換えるためには、より大きな改善が必要でした。これにより、私たちは微調整を始めました。

ファインチューニング：モデルの振る舞いのカスタマイズ

以前に探求したサードパーティの埋め込みモデルは技術的な約束とエンゲージメントの中程度の改善を示しましたが、Ibottaでの長期的な解決策には受け入れられない重大な制限も提示しました。これらには次のようなものが含まれます：

私たちの独自のオファー・カタログにエンベディング・モデルを訓練する能力の欠如
ビジネスとコンテンツの変化に伴うモデルの進化の困難
外部プロバイダからの長期的なAPI利用可能性に関する不確実性
新たな外部ビジネス関係を確立し、管理する必要性
これらのプロバイダーへのネットワーク通信は、自己ホスト型モデルほどパフォーマンスが高くありませんでした

明確な進行方向は、Ibottaのデータと私たちのSaversのニーズに特化したモデルを微調整することでした。これは、私たちのカスタム評価フレームワーク内のLLM-as-a-judgeプロセスを通じて実際のユーザーから蓄積した何百万ものラベル付き検索インタラクションのおかげで可能になりました。この高品質の生産データは私たちのトレーニングの黄金となりました。

その後、私たちはメソッドに基づいたファインチューニングプロセスに取り組み、オフライン評価フレームワークを大いに活用しました。

主な要素は次のとおりです：

インフラ： サーバーレス環境でA10sを使用したAIランタイム、および洗練されたハイパーパラメーター掃引のためのDatabricks MLランタイムを使用しました。
モデル選択: オフライン評価でより強力なパフォーマンスを示し、訓練がより効率的であることが証明されたBGEファミリーモデルをGTEよりも選択しました。
データセットエンジニアリング： 私たちは多数のトレーニングデータセットを構築し、最終的には合成トレーニングデータを生成しました：
- 一つのポジティブな結果（実際の検索からの確認済みの良いマッチ）
- ポジティブなものごとに約10のネガティブな例を組み合わせて：
  - 3-4つの「ハードネガティブ」（LLMラベル付け、人間が確認した不適切なマッチ）
  - 「バッチ内ネガティブ」（関連性のない検索用語からの結果のサンプリング）
ハイパーパラメータ最適化: 学習率、バッチサイズ、期間、ネガティブサンプリング戦略などを系統的に調査し、最適な設定を見つけ出しました。

フレームワーク内での多数の反復と評価の後、最高のパフォーマンスを発揮した微調整モデルは、合成評価で最高のサードパーティベースラインを20％上回りました。これらの魅力的なオフライン結果は、次のプロダクションテストを加速するために必要な自信を提供しました。

結果と収益をもたらす検索

技術的な厳格さと反復的なプロセスが報われました。Ibottaのユニークなオファー・カタログとユーザー行動パターンに特化した検索ソリューションを開発し、期待を超える結果を提供し、ビジネスと共に進化するための必要な柔軟性を提供しました。これらの強力な結果に基づいて、私たちはDatabricks Vector Searchを私たちの本番検索システムの基盤として移行を加速しました。

最終的なプロダクションテストでは、自社で微調整した埋め込みモデルを使用し、以下の改善を観察しました：

検索でのオファー解除が14.8%増加。
これは、ユーザーが検索結果からオファーを選択することを測定し、結果の品質と関連性が向上したことを示しています。オファーの解除は、下流の償還と収益の先行指標です。
エンゲージメントユーザーが6%増加。
これは、ユーザーの大部分が価値を見つけて検索体験内で意味のある行動を取り、改善されたコンバージョン、リテンション、ライフタイムバリューに貢献していることを示しています。
ボーナスに対するエンゲージメントが15％増加。
これは、高価値のブランドスポンサーのコンテンツの表示が改善され、これが直接的に私たちのブランドと小売パートナーのパフォーマンスとROIの向上につながることを示しています。
検索結果がゼロの検索が72.6％減少。
この大幅な減少は、フラストレーションを引き起こす経験が少なくなり、セマンティック検索のカバレッジが大幅に改善したことを意味します。
検索結果がないという結果に遭遇するユーザーが60.9％減少。
これは、ユーザーベースの大部分が今や一貫して結果を見つけていることを示し、全体的な体験を改善しています。

ユーザー向けの利益を超えて、新システムはパフォーマンスでも結果を出しました。検索システムのレイテンシーが60%低下しました、これはベクトル検索のクエリパフォーマンスと微調整モデルのオーバーヘッドの低さによるものです。

この新しい基盤の柔軟性を活用して、私たちはQuery Transformation（曖昧なクエリの豊かさ）やMulti-Search（一般的な用語の拡散）などの強力な強化機能を構築しました。高度に関連性のあるコアモデル、改善されたシステムパフォーマンス、そしてインテリジェントなクエリ強化の組み合わせにより、検索体験はよりスマートで、より速く、そして最終的にはより報酬的になりました

クエリ変換

埋め込みモデルの一つの課題は、新興ブランドなどのニッチなキーワードの理解が限定的であることです。これに対処するために、私たちは事前に定義されたルールに基づいて検索語句を動的に豊かにするクエリ変換レイヤーを構築しました。

例えば、ユーザーがエンベディングモデルが認識しない可能性のある新興のヨーグルトブランドを検索する場合、ブランド名と一緒に「ギリシャヨーグルト」を追加してクエリを変換し、それをVector Searchに送信することができます。これにより、埋め込みモデルに必要な製品コンテキストが提供され、ハイブリッド検索のための元のテキストが保持されます。

この機能は、私たちのファインチューニングプロセスと手を取り合って動作します。成功した変換は、トレーニングデータを生成するために使用することができます。例えば、元のブランド名をクエリとして含め、関連するヨーグルト製品をポジティブな結果として含めることで、モデルはこれらの特定の関連性を学ぶのに役立ちます。

マルチサーチ

"ベビー"のような広範で一般的な検索では、Vector Searchは最初に限られた数の候補を返すかもしれません。これは、ターゲティングと予算管理によりさらに絞り込まれる可能性があります。これに対処し、結果の多様性を増加させるために、私たちは一つの検索語を複数の関連検索に展開するマルチ検索機能を構築しました。

「ベビー」だけを検索するのではなく、私たちのシステムは自動的に「ベビーフード」、「ベビー服」、「ベビー薬」、「ベビーダイパー」などの用語に対して並行検索を実行します。ベクトル検索の低レイテンシーのため、全体のユーザーへの応答時間を増加させることなく、複数の検索を並行して実行することができます。これにより、幅広いカテゴリ検索に対して、より広範で多様な関連結果のセットが提供されます。

学んだ教訓

成功した最終的な本番テストとDatabricks Vector Searchの全ユーザーベースへの完全な展開の後 – ポジティブなエンゲージメント結果、増加した柔軟性、そしてQuery TransformationやMulti-Searchのような強力な検索ツールを提供 – このプロジェクトの旅はいくつかの貴重な教訓をもたらしました：

プルーフ・オブ・コンセプトから始める: 初期のハッカソンのアプローチにより、最小限の初期投資でコアコンセプトを迅速に検証することができました。
あなたにとって重要なことを測定する： 私たちのカスタム50メトリック評価フレームワークは重要でした。これにより、オフラインで観察された改善がビジネスへの影響につながるという自信を得ることができ、ソリューションが本当に有望であるまでライブテストを繰り返すことを避けることができました。
すぐに微調整に飛びつかない： 私たちは、既製のモデルを徹底的に評価し、それらのオプションを使い果たす価値を学び、微調整に必要な大きな労力を投資する前にそれを行いました。
早期にデータを収集する： 2番目の実験からデータのラベル付けを開始することで、微調整が必要になったときに豊富な独自のデータセットが準備できていました。
協力が進歩を加速する： Databricksのエンジニアや研究者との密接なパートナーシップ、ベクトル検索、埋め込みモデル、LLM-as-a-judgeのパターン、微調整のアプローチについての洞察を共有することは、私たちの進歩を大幅に加速しました。
累積的な影響を認識する: それぞれの最適化、たとえそれが些細なものであっても、私たちの検索体験の全体的な変革に大きく貢献しました。

次のステップ

ファインチューニングされたエンベディングモデルがすべての直接消費者（D2C）チャネルでライブになったので、次にはこのソリューションをIbotta Performance Network（IPN）にスケーリングすることを検討する予定です。これにより、私たちのパブリッシャーネットワーク全体で数百万人以上のショッパーが改善されたオファーの発見を享受することができるようになります。Databricksを通じてラベル付けされたデータを収集し、モデルを洗練し続けることで、私たちはパートナーのニーズとその顧客の期待と共に検索体験を進化させるために、私たちは適切な位置にいると信じています。

ハッカソンプロジェクトから製品システムへのこの旅は、適切なツールとサポートがあれば、コアプロダクト体験を迅速に再構想することが可能であることを証明しました。Databricksは、私たちが迅速に動き、効果的に微調整し、そして最終的に、私たちのSaversのためにすべての検索をより報酬的にするのに重要な役割を果たしました。

次は何ですか？

Databricks Ventures Invests in Twelve Labs to Bring Video Intelligence to the Data Intelligence Platform

December 16, 2024/1分未満

Databricks VenturesがTwelve Labsに投資し、データインテリジェンスプラットフォームにビデオインテリジェンスを導入

December 23, 2024/2分で読めます