Revenir au contenu principal
Coinbase logo

Témoignage
de client

Databricks alimente la détection de fraude en temps réel chez Coinbase.

< 100 ms

Latence P99 atteinte à très grande échelle

99 %

Cohérence des caractéristiques en ligne/hors ligne entre les modèles

51 %

Estimation de la réduction des coûts annuels de calcul

Databricks powers real-time fraud detection at Coinbase

Coinbase s'est donné pour mission d'encourager la liberté économique dans le monde en proposant une plateforme de confiance pour les crypto-actifs. Elle couvre un large éventail d'opérations : trading, staking, conservation, dépense et transferts mondiaux rapides et gratuits. Pour protéger les utilisateurs contre la fraude et proposer des recommandations personnalisées, Coinbase a besoin d'une précision inférieure à la seconde pour ses modèles de machine learning. Cependant, les architectures par micro-lots, principalement destinées aux cas d'utilisation ETL, ont au contraire introduit une latence qui a affecté la précision des modèles et augmenté les coûts de calcul. En adoptant le mode Temps réel de Spark Structured Streaming sur Databricks, Coinbase a transformé son infrastructure de données. La latence de calcul des caractéristiques a été réduite à quelques millisecondes, ce qui a permis d'atteindre 99 % de cohérence des caractéristiques et d'économiser des centaines de milliers de dollars en coûts d'infrastructure. Le résultat : une détection de la fraude en temps réel, plus précise et à grande échelle.

Les données obsolètes, cause de retard dans les modèles de détection de la fraude

Coinbase s'appuie sur le machine learning pour des cas d'usage majeurs tels que la détection de la fraude, l'identification des transactions suspectes et l'atténuation des risques de blanchiment d'argent. Ces capacités exigent des modèles de ML de haute précision, capables de fonctionner en quasi-temps réel.

Avant d'adopter le mode Temps réel (RTM), l'équipe de la plateforme de Coinbase avait optimisé Spark Structured Streaming en mode micro-batch (MBM) autant que l'architecture le permettait. Plus précisément, en développant des solutions innovantes pour maximiser chaque milliseconde de MBM, l'équipe était parvenue à obtenir des données datant de moins d'une seconde (~800–900 ms), mais au prix d'une charge opérationnelle coûteuse. En cas de retard, la cohérence des fonctionnalités en ligne et hors ligne de leurs modèles se dégradait, aux dépens de la précision de plusieurs modèles de risque.

Une précision inférieure à la seconde grâce au mode Temps Réel de Spark

Pour surmonter ces obstacles de latence et de coût, Coinbase a fait passer ses modèles de risque critiques au mode temps réel Spark (RTM) sur Databricks. L'adoption de RTM a été simple : il a suffi à l'équipe d'ingénierie de mettre à jour son type de trigger, sans toucher à sa logique métier principale. Cette transition parfaitement fluide vers RTM a produit une amélioration spectaculaire des performances : le traitement par micro-lots a été remplacé par le streaming en temps réel, et la latence est passée de plus de 800 ms à 100–250 ms à très grande échelle.

Ce changement d'approche a produit des effets immédiats sur la fraîcheur des données qui alimentent les pipelines de ML. L'équipe bénéficie aujourd'hui de la cohérence nécessaire pour produire des modèles qui reflètent avec précision les systèmes opérationnels synchronisés en temps réel. Pour faciliter l'adoption du système, l'équipe de la plateforme a mis en place des garde-fous d'intégration continue (CI) et créé des agents IA qui automatisent la configuration des fonctionnalités de streaming. RTM s'intègre ainsi parfaitement au magasin de caractéristiques existant.

« Nos ingénieurs en machine learning n'ont pas eu besoin d'apprendre les subtilités du mode Temps réel, » souligne Kamila Wickramarachchi, ingénieure logiciel chez Coinbase. « Nous avons simplement apporté des améliorations massives à la fraîcheur et à la cohérence des données, et les résultats ont parlé d'eux-mêmes. »

Des insights plus rapides pour un coût réduit

Depuis l'implémentation de RTM, les modèles de risque de Coinbase utilisent les données de transaction les plus récentes et les capacités de détection de la fraude de l'entreprise se sont sensiblement améliorées. La latence est passée sous la barre de la seconde atteignant même 150 ms pour les agrégations de caractéristiques sans état et 250 ms pour celles qui reposent sur le streaming avec état. Le résultat : jusqu'à 98 % d'amélioration de la cohérence des caractéristiques en ligne et hors ligne.

Ce changement d'architecture a permis à l'équipe d'atteindre une échelle et une vitesse remarquables. Comme l'explique Daniel Zhou, ingénieur principal senior de la plateforme de machine learning chez Coinbase, « Grâce au mode Temps réel de Spark Structured Streaming, nous avons réduit nos latences de bout en bout de plus de 80 %. Nous avons ainsi fait passer les P99 sous la barre des 100 ms et simplifié notre stratégie de ML en temps réel à très grande échelle. Cette performance nous permet de calculer plus de 250 caractéristiques de ML basées sur un moteur Spark unifié. »

Parallèlement aux gains de performance, RTM a permis à Coinbase de se passer des clusters nécessaires au mode micro-batch, hautement spécialisés et lourdement provisionnés. L'impact sur la structure de coûts a été fondamental : l'équipe a réduit de moitié ses frais de calcul.

« En plus des améliorations considérables en matière de fraîcheur et de cohérence des données, nous avons enregistré d'importantes réductions des coûts, » ajoute K. Wickramarachchi. « D'après nos estimations, ce changement d'architecture nous fera économiser 51 % sur les coûts de calcul cette année. »

Pour aller plus loin...