Historia
del Cliente

Databricks impulsa la detección de fraudes en tiempo real en Coinbase

<100 ms

Latencia P99 lograda a gran escala

99%

Coherencia de las funciones en línea y fuera de línea en todos los modelos

51 %

Reducción anual estimada en los costos de cómputo

Databricks powers real-time fraud detection at Coinbase

La misión de Coinbase es aumentar la libertad económica en el mundo mediante la creación de una plataforma confiable para activos cripto, que incluye trading, staking, custodia, gasto y transferencias globales rápidas y gratuitas. Para proteger a los usuarios del fraude y potenciar las recomendaciones personalizadas, Coinbase requiere una precisión de menos de un segundo para sus modelos de aprendizaje automático. Sin embargo, las arquitecturas de microlote, principalmente destinadas a casos de uso ETL, introdujeron en cambio una latencia que afectó a la precisión del modelo y aumentó los costos de cálculo. Al migrar al modo de tiempo real en Spark Structured Streaming en Databricks, Coinbase transformó su infraestructura de datos, lo que redujo la latencia de cálculo de características a milisegundos, y logró una consistencia de características del 99 % y ahorró cientos de miles en costos de infraestructura para impulsar una detección de fraude en tiempo real más precisa a escala.

Los datos obsoletos dejaron a los modelos de fraude un paso atrás

Coinbase aprovecha el aprendizaje automático para potenciar los casos de uso primario, como la detección de fraude, la captura de transacciones sospechosas y la mitigación de los riesgos contra el lavado de dinero. Para ofrecer estas capacidades se necesitan modelos de aprendizaje automático de gran precisión que funcionen casi en tiempo real.

Antes de adoptar el modo de tiempo real (RTM), el equipo de la plataforma de Coinbase optimizó Spark Structured Streaming en modo de microlotes (MBM) hasta donde la arquitectura lo permitía. Específicamente, el equipo construyó soluciones innovadoras para maximizar cada milisegundo de MBM, alcanzando eventualmente una frescura inferior al segundo (~800-900 ms), pero con una pesada carga operativa y de costos. Cuando ocurrían retrasos, esto impactaba negativamente en la consistencia de las funciones en línea y fuera de línea de sus modelos, lo que mermaba la precisión de varios modelos de riesgo.

Precisión de milisegundos con el modo de tiempo real en Spark

Para superar estos obstáculos de latencia y costos, Coinbase cambió sus modelos críticos de riesgo al modo de en tiempo real (RTM) en Spark en Databricks. La adopción de RTM fue muy sencilla: el equipo de ingeniería solo tuvo que actualizar el tipo de disparador, lo que permitió que la lógica de negocio principal permaneciera totalmente inalterada. Este cambio fluido a RTM permitió una mejora sustancial en el rendimiento, pasando del procesamiento microlote a la transmisión en tiempo real, saltando de más de 800 ms a un rango de 100-250 ms a escala masiva.

Esta transición mejoró de inmediato la frescura de los datos que alimentan sus flujos de ML, impulsando la consistencia para producir modelos que reflejan con precisión los sistemas operativos sincronizados en tiempo real. Para garantizar una adopción sin problemas, el equipo de la plataforma implementó directrices de integración continua (CI) y creó agentes de IA para automatizar la configuración de las funciones de transmisión, integrando sin problemas RTM en su repositorio existente de características.

“Nuestros ingenieros de aprendizaje automático no necesitaron aprender las complejidades del modo en tiempo real”, señaló Kamila Wickramarachchi, ingeniera de software de Coinbase. “Simplemente entregamos las mejoras masivas en la frescura y consistencia de los datos, e inmediatamente vieron el valor en los resultados”.

Análisis más rápidos a una fracción del costo

Desde la implementación de RTM, Coinbase ha mejorado su capacidad para mitigar el fraude asegurando que los modelos de riesgo actúen sobre los datos de transacciones más actualizados. La latencia se redujo a una actualización inferior al segundo, alcanzando 150 ms para procesamiento sin estado y 250 ms para agregaciones de funciones de procesamiento con estado en transmisión. La consistencia de las funciones en línea y fuera de línea registró una mejora de hasta un 98 %.

Este cambio de arquitectura permitió al equipo alcanzar una escala y una velocidad extraordinarias. Como explicó Daniel Zhou, ingeniero sénior de Plataforma de Aprendizaje Automático de Coinbase: “Al aprovechar el modo en tiempo real en Spark Structured Streaming, hemos logrado una reducción de más del 80 % en la latencia de extremo a extremo, alcanzando p99 por debajo de 100 ms, y optimizando nuestra estrategia de aprendizaje automático en tiempo real a gran escala”. Este rendimiento nos permite calcular más de 250 funciones de ML, todas impulsadas por un motor Spark unificado.

Más allá de las ganancias en rendimiento, RTM permitió a Coinbase desmantelar sus clústeres previamente especializados y altamente aprovisionados requeridos por el modo de microlotes. Esto cambió fundamentalmente su estructura de costos, y el equipo redujo sus costos de cómputo a la mitad.

“Además de las enormes mejoras en la frescura y consistencia de los datos, logramos una reducción de costos asombrosa”, agregó Wickramarachchi. “Estimamos que este cambio de arquitectura nos ahorrará un 51 % en costos de cómputo solo este año”.