Modernizando Ecosistemas Financieros con Latencia de Subsegundo e Inteligencia de Datos Escalable
por Sixuan He y Navneeth Nair
El fraude con tarjetas opera en segundos. Un número de tarjeta de crédito robado puede impulsar docenas de compras en minutos, y una vez que una transacción se liquida, recuperar esos fondos se vuelve exponencialmente más difícil. Según el Nilson Report, las instituciones financieras pierden un estimado de $33 mil millones anualmente debido a transacciones fraudulentas con tarjetas, y esa cifra solo crecerá a medida que el volumen de transacciones digitales se acelere.
El desafío no es detectar el fraude. La mayoría de las organizaciones ya tienen modelos de fraude capaces y reglas bien ajustadas. El desafío es detectarlo lo suficientemente rápido como para bloquear una transacción sospechosa antes de que se liquide, en la ventana de subsegundos entre la autorización y la liquidación, y hacerlo sin añadir un motor de streaming separado y especializado que duplique su complejidad operativa.
En este blog, presentamos un nuevo Acelerador de Soluciones: una implementación de referencia de código abierto que puede clonar y desplegar directamente en su entorno de Databricks. Demuestra cómo construir un sistema completo de detección de fraude de extremo a extremo, desde la ingesta de transacciones en bruto y la puntuación de ML en tiempo real hasta un panel de monitoreo en vivo construido con Databricks Apps, todo ello en la Plataforma Databricks. En su núcleo hay dos tecnologías: Real-Time Mode (RTM) para Apache Spark Structured Streaming en Databricks que ofrece procesamiento de flujo de menos de 300 ms, y Lakebase, una base de datos Postgres completamente administrada y sin servidor integrada en la Plataforma Databricks.
La detección de fraude se encuentra en la intersección de dos demandas conflictivas.
Por un lado, está la velocidad. Una transacción fraudulenta debe ser identificada y bloqueada en cientos de milisegundos antes de que se liquide. Las sofisticadas redes de fraude prueban tarjetas robadas con microcompras rápidas, explotan anomalías geográficas y adaptan sus patrones más rápido de lo que las reglas estáticas pueden seguir.
Por otro lado, está la simplicidad. Los equipos de datos quieren construir, entrenar y desplegar modelos de fraude en una única plataforma, con gobernanza unificada, datos compartidos y un solo conjunto de herramientas. No quieren mantener una pila de streaming separada solo para la "última milla" de la puntuación en tiempo real.
Hasta ahora, los equipos se han visto obligados a elegir. Históricamente, cumplir con estos requisitos de latencia ultrabaja significaba introducir un motor especializado junto a Spark, como Apache Flink. El resultado es un patrón familiar: dos sistemas paralelos, datos duplicados, gobernanza dividida y equipos de ingeniería dedicando más tiempo a gestionar pipelines en lugar de mejorar los modelos de fraude. Con la introducción de RTM en Spark Structured Streaming, esa compensación ya no es necesaria.
RTM es una evolución del motor Spark Structured Streaming que permite el procesamiento de datos en subsegundos para aplicaciones operativas sensibles a la latencia, como la ingeniería de características.
En el lado de la velocidad, RTM procesa eventos en milisegundos y es hasta un 92% más rápido que Apache Flink en cargas de trabajo de transformación sin estado, enriquecimiento basado en uniones y agregación. Clientes como Coinbase ya están utilizando RTM para calcular más de 250 características de ML, y han logrado latencias de procesamiento P99 de menos de 100 ms.
En el lado de la simplicidad, RTM reside dentro del motor Spark que ya utiliza, no junto a él. Por lo tanto, se beneficiará inmediatamente de:
Como resultado, el equipo ya no necesita elegir; obtiene tanto la velocidad como la simplicidad, y las horas de ingeniería se dedican a ajustar las señales de fraude en lugar de gestionar la infraestructura.
Para concretar esto, nuestro Acelerador de Soluciones implementa un sistema de detección de fraude en tiempo real para transacciones con tarjeta de crédito. Aquí está el escenario:
Las transacciones fluyen desde un sistema de mensajería (Kafka, Kinesis, etc.). Cada transacción lleva un ID de tarjeta, monto, categoría de comerciante, coordenadas geográficas y canal (en línea vs. punto de venta). El sistema debe evaluar cada transacción contra múltiples señales de fraude, asignar una puntuación de riesgo y enrutarla al resultado apropiado — aprobada, marcada para revisión o bloqueada — todo dentro de los 300 ms.
La arquitectura refleja cómo son los sistemas de fraude en producción en las principales instituciones financieras, con seguimiento de estado, enriquecimiento de características desde Lakebase como capa de servicio en línea, puntuación de ML y una aplicación en vivo de Databricks Apps para el monitoreo de analistas de fraude. La diferencia es que se ejecuta completamente en una sola plataforma.

El acelerador pasa por cuatro etapas progresivas, cada una construyendo sobre la anterior. Aquí está el diagrama de arquitectura del sistema de alto nivel. Muestra el flujo de datos limpio a través de los cuatro componentes principales:
Vea el video de demostración completo de extremo a extremo a continuación, o continúe leyendo el paso a paso para aprender exactamente cómo lo construimos. Comience con el Inicio Rápido a continuación (sin dependencias externas) y agregue complejidad a medida que avanza.
Para las instituciones financieras que evalúan la infraestructura de fraude en tiempo real, un rápido tiempo de valor es crítico. El notebook de Inicio Rápido permite a su equipo experimentar Real-Time Mode inmediatamente, y validar los puntos de referencia de latencia clave y la idoneidad de la plataforma en menos de cinco minutos, antes de cualquier compromiso de producción. No es necesario conectarse a Kafka ni configurar nada externo. Genera transacciones sintéticas utilizando la fuente de tasa incorporada de Spark, aplica la lógica de puntuación de fraude y muestra los resultados en vivo en el notebook. Este es su "hola mundo" para Real-Time Mode. Ejecútelo, vea los números de latencia y valide que su clúster esté configurado correctamente.
Con Real-Time Mode validado, el siguiente notebook construye un pipeline de detección de fraude de grado de producción que refleja cómo las principales instituciones financieras operacionalizan la toma de decisiones de fraude en tiempo real. Procesa transacciones de extremo a extremo, entregando la puntuación explicable requerida tanto por los equipos de operaciones de fraude como por los de cumplimiento. Las transacciones fluyen desde Kafka a través de cinco etapas, cada una ejecutándose continuamente, cada una añadiendo inteligencia:

También realizamos pruebas de latencia de extremo a extremo en diferentes niveles de TPS. Los resultados mostraron un rendimiento consistente, con una latencia P50 inferior a 40 ms y una latencia P99 que osciló entre 215 y 392 ms. Estos resultados demuestran que una arquitectura Kafka-in, Kafka-out que utiliza RTM en la plataforma Databricks puede ofrecer un rendimiento de baja latencia y listo para producción sin depender de APIs externas o infraestructura adicional.

La detección de fraude basada en reglas estáticas crea sistemas fáciles de auditar pero frágiles. Los umbrales son arbitrarios: ¿por qué cinco transacciones en 60 segundos son "sospechosas"? ¿Por qué no cuatro o seis? Y debido a que no hay aprendizaje, el sistema nunca mejora a partir de decisiones pasadas.
El notebook avanzado actualiza esta lógica a un modelo de machine learning gobernado. Esta transición permite a los equipos de riesgo reducir los falsos positivos, adaptarse a los patrones de fraude emergentes y demostrar el linaje del modelo a los reguladores a través del seguimiento de experimentos y el versionado integrados de MLflow. Esto introduce dos nuevas capacidades de la plataforma:

La visibilidad operativa es innegociable para los equipos de fraude que trabajan bajo obligaciones de informes regulatorios en tiempo real. Para hacer el sistema observable, el acelerador incluye una Databricks Apps basada en Streamlit que lee directamente de Lakebase para proporcionar un panel de control de monitorización de fraude en vivo. Esto proporciona a los analistas de fraude y a los gestores de riesgo una vista en vivo y auditable de cada decisión que toma el sistema, sin requerir soporte de ingeniería para acceder a ella. Los usuarios pueden rastrear el total de transacciones puntuadas, los desgloses de decisiones (aprobadas, marcadas, bloqueadas), las puntuaciones de fraude recientes con detalles a nivel de tarjeta y las distribuciones de probabilidad de fraude, todo ello con actualización automática cada 10 segundos. Esta es la capa operativa que hace que el sistema sea utilizable en la práctica, no solo funcionalmente técnico.

La clave es que todo se ejecuta en una única plataforma. El mismo motor de Spark que impulsa su ETL por lotes y el entrenamiento de ML ahora maneja el streaming de menos de 300 ms. Unity Catalog ahora gobierna tanto sus tablas de streaming como sus datos de entrenamiento. MLflow ahora rastrea sus modelos de fraude, ya sea que se utilicen en inferencia por lotes o en puntuación en tiempo real. No hay brecha de integración, ni división de gobernanza, ni una segunda pila que mantener porque todo está en la misma plataforma.
Este Acelerador de Soluciones está diseñado para ser progresivamente adaptable: empiece de forma sencilla y añada complejidad si es necesario.
La ruta más rápida es con Databricks Asset Bundles — simplemente clone, despliegue y ejecute:
El bundle aprovisiona automáticamente un clúster correctamente configurado y ejecuta todos los notebooks en secuencia.
El modo en tiempo real (Real-Time Mode) está disponible de forma general en Databricks en AWS, Azure y GCP. El Acelerador de Soluciones de detección de fraude es de código abierto y está listo para ser desplegado.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.