A missão da Coinbase é aumentar a liberdade econômica no mundo ao oferecer uma plataforma confiável para criptoativos, incluindo negociação, staking, custódia, gastos e transferências globais rápidas e gratuitas. Para proteger os usuários contra fraudes e viabilizar recomendações personalizadas, a Coinbase exige uma precisão de subsegundos para seus modelos do Machine Learning. No entanto, arquiteturas de microbatch destinadas principalmente a casos de uso de ETL introduziram latência, o que afetou a precisão do modelo e aumentou os custos de compute. Ao migrar para o Modo em Tempo Real do Spark Structured Streaming na Databricks, a Coinbase transformou sua infraestrutura de dados ao reduzir a latência de computação de recursos para milissegundos, alcançar 99% de consistência de recursos e economizar centenas de milhares de dólares em custos de infraestrutura. Com isso, foi possível viabilizar detecções de fraude em tempo real mais precisas e em grande escala.
Dados defasados deixaram os modelos de fraude em desvantagem
A Coinbase utiliza Machine Learning para impulsionar casos de uso primários, como detecção de fraudes, captura de transações suspeitas e redução de riscos de lavagem de dinheiro. Oferecer esses recursos exige modelos de ML altamente precisos que funcionem quase em tempo real.
Antes de adotar o Modo em Tempo Real (RTM), a equipe de plataforma da Coinbase otimizou Spark Structured Streaming no modo microbatch (MBM) tanto quanto a arquitetura permitia. Especificamente, a equipe desenvolveu soluções inovadoras para maximizar cada milissegundo de MBM, atingindo, eventualmente, uma atualização abaixo de um segundo (~800–900 ms), mas com um custo operacional elevado. Quando ocorriam atrasos, isso afetava negativamente a consistência dos recursos online e offline dos modelos, prejudicando a precisão em diversos modelos de risco.
Potencializando a precisão de sub-segundo com o Modo em Tempo Real do Spark
Para superar esses obstáculos de latência e custo, a Coinbase migrou seus modelos de risco críticos para o Modo em Tempo Real (RTM) do Spark na Databricks. Adotar o RTM foi simples: a equipe de engenharia só precisava atualizar o tipo de trigger, permitindo que a lógica central de negócios permanecesse completamente inalterada. Essa transição contínua para o RTM permitiu uma melhora significativa no desempenho, passando do processamento microbatch para a transmissão em tempo real, saltando de 800+ms para 100–250ms em grande escala.
Essa transição melhorou imediatamente a atualidade dos dados que alimentam os ML pipelines, impulsionando a consistência para produzir modelos que refletem com precisão os sistemas em operação sincronizados em tempo real. Para garantir uma adoção sem interrupções, a equipe da plataforma implementou proteções de Integraç ão Contínua (CI) e criou agentes de IA para automatizar a configuração dos recursos de transmissão, integrando o RTM de forma fluida ao Feature Store existente.
"Nossos engenheiros de Machine Learning não precisaram aprender as complexidades do Modo em Tempo Real", observou Kamila Wickramarachchi, engenheira de software da Coinbase. "Simplesmente proporcionamos melhorias significativas na atualização e consistência dos dados, e eles imediatamente perceberam o valor dos resultados."
Percepções mais rápidas a uma fração do custo
Desde a implementação do RTM, a Coinbase aprimorou sua capacidade de mitigar fraudes, garantindo que os modelos de risco atuem com base nos dados de transações mais atualizados. A latência caiu para menos de um segundo, atingindo 150 ms para agregações de recursos de transmissão sem estado e 250 ms para agregações de recursos de transmissão com estado. A consistência dos recursos online e offline apresentou uma melhoria de até 98%.
Essa mudança arquitetônica permitiu que a equipe alcançasse uma escala e uma velocidade notáveis. Daniel Zhou, engenheiro sênior de plataforma de Machine Learning da Coinbase, explicou: "Ao usar Modo em Tempo Real no Spark Structured Streaming, obtivemos uma redução de mais de 80% nas latências de ponta a ponta, atingindo P99s abaixo de 100ms e otimizando nossa estratégia de ML em tempo real em grande escala. Esse desempenho nos permite compute mais de 250 recursos de ML, todos baseados em um mecanismo unificado do Spark."
Além dos ganhos de desempenho, o RTM permitiu que a Coinbase desativasse seus clusters anteriormente especializados e fortemente provisionados, exigidos pelo modo microbatch. Isso alterou fundamentalmente sua estrutura de custos, e a equipe reduziu seus custos compute pela metade.
"Além das melhorias significativas na atualização e consistência dos dados, conseguimos uma redução de custos significativa", acrescentou Wickramarachchi. "Estimamos que essa mudança arquitetônica nos permitirá economizar 51% nos custos de compute somente neste ano."



