メインコンテンツへジャンプ
Coinbase logo

導入事例

DatabricksはCoinbaseのリアルタイム不正検知を実現しています

<100ms

大規模でP99レイテンシを達成

99%

モデル間のオンライン/オフラインの特徴量の一貫性

51%

コンピュート コストの年間削減推定額

Databricks powers real-time fraud detection at Coinbase

Coinbaseの使命は、取引、ステーキング、安全な保管、決済、迅速で無料のグローバル送金など、暗号資産のための信頼できるプラットフォームを提供することで、世界の経済的自由を高めることです。ユーザーを不正行為から保護し、パーソナライズされたおすすめ情報を提供するため、Coinbaseでは機械学習モデルに1秒未満の精度が求められます。しかし、主に ETL ユースケースを目的としたマイクロバッチアーキテクチャは、かえってレイテンシを発生させ、モデルの精度に影響を与え、コンピュートコストを増大させました。Coinbaseは、DatabricksのSpark Structured Streaming Real-Time Modeに移行することでデータインフラストラクチャを変革し、特徴量計算のレイテンシをミリ秒単位に短縮、99%の特徴量の一貫性を達成、インフラコストを数十万ドル削減することで、より高精度なリアルタイムの不正検知を大規模に実現しています。

陳腐化したデータが、不正検知モデルを時代遅れにしました。

CoinbaseはMachine Learningを活用し、不正検知、不審な取引の捕捉、マネーロンダリングリスクの軽減といった主要なユースケースを実現しています。これらの機能を実現するには、ほぼリアルタイムで動作する高精度な 機械学習 モデルが必要です。

リアルタイム モード(RTM)を導入する前、Coinbase のプラットフォーム チームは、マイクロバッチ モード(MBM)で Spark Structured Streaming をアーキテクチャの許す限り最適化していました。具体的には、チームはMBMの各ミリ秒を最大限に活用する革新的なソリューションを構築し、最終的に1秒未満(~800~900ミリ秒)の鮮度を達成しましたが、運用上の負担は大きいものでした。遅延が発生すると、モデルのオンラインとオフラインの特徴量の一貫性に悪影響が及び、いくつかのリスクモデルで精度が低下しました。

Spark リアルタイムモードでサブ秒精度を実現

これらのレイテンシーとコストの課題を克服するために、Coinbase は重要なリスクモデルを Databricks 上の Spark Real-Time Mode (RTM) に移行しました。RTM の導入は簡単でした。エンジニアリングチームが更新する必要があったのは Trigger タイプのみで、コアビジネスロジックは全く変更せずに済みました。この RTM へのシームレスな移行により、マイクロバッチ処理からリアルタイム ストリーミングに移行してパフォーマンスが劇的に向上し、大規模なスケールで 800 ミリ秒以上から 100~250 ミリ秒に短縮されました。

この移行により、ML パイプラインに供給されるデータの鮮度が即座に向上し、リアルタイムで同期されるオペレーショナル システムを正確に反映するモデルを一貫して生成できるようになりました。スムーズな導入を確実にするため、プラットフォームチームは継続的インテグレーション(CI)ガードレールを実装し、ストリーミング機能のセットアップを自動化するAIエージェントを作成して、RTMを既存のFeature Storeにシームレスに統合しました。

「当社の Machine Learning エンジニアは、Real-Time Mode の複雑な仕組みを学ぶ必要はありませんでした」と、Coinbase のソフトウェア エンジニアである Kamila Wickramarachchi 氏は述べました。"私たちはデータの鮮度と一貫性を大幅に改善しただけですが、彼らはすぐにその結果に価値を見出してくれました。"

ごくわずかなコストで、より迅速な知見を

CoinbaseはRTMを導入し、リスクモデルが最新のトランザクションデータに基づいて動作することを保証することで、不正行為をより効果的に軽減できるようになりました。レイテンシは1秒未満の鮮度まで低下し、ステートレスな特徴量集計では150ms、ステートフル ストリーミングの特徴量集計では250msを達成しました。オンラインとオフラインの特徴量の一貫性が最大 98% 改善されました。

このアーキテクチャの変更は、チームに目覚ましいスケールとスピードを達成する力を与えました。Coinbaseのシニアスタッフ機械学習プラットフォームエンジニアであるDaniel Zhou氏は、次のように説明しています。「Spark Structured Streamingのリアルタイムモードを活用することで、エンドツーエンドのレイテンシーを80%以上削減し、P99で100ミリ秒未満を達成して、大規模なリアルタイムML戦略を効率化しました」。このパフォーマンスにより、統合された Spark エンジンで 250 を超える 機械学習 特徴量をすべてコンピュートできます。"

パフォーマンスの向上だけでなく、RTM によって Coinbase は、これまでマイクロバッチモードで必要とされていた専用の、ヘビープロビジョニングされたクラスターを廃止できるようになりました。これによりコスト構造が根本的に変わり、チームはコンピュートコストを半分に削減しました。

"データの鮮度と一貫性が大幅に改善されただけでなく、驚くべきコスト削減も実現しました" とウィクラマラッチ氏は付け加えました。"このアーキテクチャシフトにより、今年だけでコンピュートコストが 51% 削減されると推定しています。"

こちらもご覧ください

無料お試し・その他ご相談を承ります