Modernizzare gli Ecosistemi Finanziari con Latenza Inferiore al Secondo e Intelligenza dei Dati Scalabile
di Sixuan He e Navneeth Nair
La frode con carta opera in pochi secondi. Un numero di carta di credito rubato può alimentare decine di acquisti in pochi minuti e, una volta che una transazione si è stabilizzata, recuperare quei fondi diventa esponenzialmente più difficile. Secondo il Nilson Report, le istituzioni finanziarie perdono circa 33 miliardi di dollari all'anno a causa di transazioni fraudolente con carta, e questa cifra è destinata a crescere man mano che il volume delle transazioni digitali accelera.
La sfida non è rilevare le frodi. La maggior parte delle organizzazioni dispone già di modelli di frode capaci e regole ben ottimizzate. La sfida è rilevarle abbastanza velocemente da bloccare una transazione sospetta prima che venga autorizzata, nella finestra di sub-secondo tra autorizzazione e regolamento, e farlo senza aggiungere un motore di streaming separato e specializzato che raddoppi la complessità operativa.
In questo blog, presentiamo un nuovo Acceleratore di Soluzioni: un'implementazione di riferimento open source che puoi clonare e distribuire direttamente nel tuo ambiente Databricks. Dimostra come costruire un sistema completo di rilevamento delle frodi end-to-end, dall'ingestione di transazioni grezze e scoring ML in tempo reale a una dashboard di monitoraggio live costruita con Databricks Apps, interamente sulla piattaforma Databricks. Al suo centro ci sono due tecnologie: Real-Time Mode (RTM) per Apache Spark Structured Streaming su Databricks che offre elaborazione di stream inferiore a 300 ms, e Lakebase, un database Postgres completamente gestito e serverless integrato nella piattaforma Databricks.
Il rilevamento delle frodi si trova all'intersezione di due esigenze contrastanti.
Da un lato, c'è la velocità. Una transazione fraudolenta deve essere identificata e bloccata entro centinaia di millisecondi prima che si stabilizzi. Sofisticate reti di frode testano carte rubate con micro-acquisti rapidi, sfruttano anomalie geografiche e adattano i loro schemi più velocemente di quanto le regole statiche possano tenere il passo.
Dall'altro lato, c'è la semplicità. I team di dati vogliono costruire, addestrare e distribuire modelli di frode su un'unica piattaforma, con governance unificata, dati condivisi e un unico set di strumenti. Non vogliono mantenere uno stack di streaming separato solo per l'"ultimo miglio" dello scoring in tempo reale.
Fino ad ora, i team sono stati costretti a scegliere. Storicamente, soddisfare questi requisiti di latenza ultra-bassa significava introdurre un motore specializzato accanto a Spark, come Apache Flink. Il risultato è un modello familiare: due sistemi paralleli, dati duplicati, governance divisa e team di ingegneri che dedicano più tempo alla gestione delle pipeline invece di migliorare i modelli di frode. Con l'introduzione di RTM in Spark Structured Streaming, questo compromesso non è più necessario.
RTM è un'evoluzione del motore Spark Structured Streaming che consente l'elaborazione dei dati in sub-secondo per applicazioni operative sensibili alla latenza, come l'ingegneria delle feature.
Sul fronte della velocità, RTM elabora gli eventi in millisecondi ed è fino al 92% più veloce di Apache Flink attraverso carichi di lavoro di trasformazione stateless, arricchimento basato su join e aggregazione. Clienti come Coinbase stanno già utilizzando RTM per calcolare oltre 250 feature ML e hanno raggiunto latenze di elaborazione P99 inferiori a 100 ms.
Sul fronte della semplicità, RTM vive all'interno del motore Spark che già utilizzi, non accanto ad esso. Pertanto, beneficerai immediatamente di:
Di conseguenza, il team non ha più bisogno di scegliere; ottieni sia la velocità che la semplicità, e le ore di ingegneria tornano all'ottimizzazione dei segnali di frode piuttosto che alla gestione dell'infrastruttura.
Per rendere questo concetto concreto, il nostro Acceleratore di Soluzioni implementa un sistema di rilevamento delle frodi in tempo reale per le transazioni con carta di credito. Ecco lo scenario:
Le transazioni arrivano in streaming da un sistema di messaggistica (Kafka, Kinesis, ecc.). Ogni transazione include un ID carta, importo, categoria esercente, coordinate geografiche e canale (online vs. punto vendita). Il sistema deve valutare ogni transazione rispetto a più segnali di frode, assegnare un punteggio di rischio e instradarla all'esito appropriato — approvata, contrassegnata per revisione o bloccata — tutto entro 300 ms.
L'architettura rispecchia l'aspetto dei sistemi di frode di produzione presso le principali istituzioni finanziarie, con tracciamento stateful, arricchimento delle feature da Lakebase come livello di serving online, scoring ML e un'applicazione live Databricks Apps per il monitoraggio degli analisti delle frodi. La differenza è che funziona interamente su un'unica piattaforma.

L'acceleratore attraversa quattro fasi progressive, ognuna basata sulla precedente. Ecco il diagramma di architettura di sistema di alto livello. Mostra il flusso di dati pulito attraverso i quattro componenti principali:
Guarda il video dimostrativo completo end-to-end qui sotto, oppure continua a leggere la guida passo dopo passo per scoprire esattamente come l'abbiamo costruito. Inizia con l'Avvio Rapido qui sotto (nessuna dipendenza esterna) e aggiungi complessità man mano che procedi.
Per le istituzioni finanziarie che valutano l'infrastruttura di frode in tempo reale, un rapido time-to-value è fondamentale. Il notebook di Avvio Rapido consente al tuo team di sperimentare immediatamente Real-Time Mode e di convalidare i benchmark di latenza principali e l'idoneità della piattaforma in meno di cinque minuti, prima di qualsiasi impegno di produzione. Non è necessario connettersi a Kafka o configurare nulla di esterno. Genera transazioni sintetiche utilizzando la sorgente di frequenza integrata di Spark, applica la logica di scoring delle frodi e visualizza i risultati in tempo reale nel notebook. Questo è il tuo "hello world" per Real-Time Mode. Eseguilo, osserva i numeri di latenza e verifica che il tuo cluster sia configurato correttamente.
Con Real-Time Mode convalidato, il notebook successivo costruisce una pipeline di rilevamento delle frodi di livello produttivo che rispecchia il modo in cui le principali istituzioni finanziarie operativizzano il decision-making sulle frodi in tempo reale. Elabora le transazioni end-to-end, fornendo lo scoring spiegabile richiesto sia dai team operativi antifrode che di compliance. Le transazioni fluiscono da Kafka attraverso cinque fasi, ognuna in esecuzione continua, ognuna aggiungendo intelligenza:

Abbiamo anche condotto test di latenza end-to-end su vari livelli di TPS. I risultati hanno mostrato prestazioni costanti, con una latenza P50 inferiore a 40 ms e una latenza P99 compresa tra 215 e 392 ms. Questi risultati dimostrano che un'architettura Kafka-in, Kafka-out che utilizza RTM sulla piattaforma Databricks può offrire prestazioni a bassa latenza e pronte per la produzione senza fare affidamento su API esterne o infrastrutture aggiuntive.

Il rilevamento delle frodi basato su regole statiche crea sistemi facili da controllare ma fragili. Le soglie sono arbitrarie: perché cinque transazioni in 60 secondi sono "sospette"? Perché non quattro o sei? E poiché non c'è apprendimento, il sistema non migliora mai dalle decisioni passate.
Il notebook avanzato aggiorna questa logica a un modello di machine learning governato. Questa transizione consente ai team di rischio di ridurre i falsi positivi, adattarsi ai nuovi schemi di frode emergenti e dimostrare la lineage del modello ai regolatori tramite il tracciamento degli esperimenti e il versioning integrati di MLflow. Questo introduce due nuove capacità della piattaforma:

La visibilità operativa è un elemento non negoziabile per i team antifrode che operano sotto obblighi di reporting normativo in tempo reale. Per rendere il sistema osservabile, l'acceleratore include una Databricks Apps basata su Streamlit che legge direttamente da Lakebase per fornire una dashboard di monitoraggio delle frodi in tempo reale. Questo offre agli analisti antifrode e ai gestori del rischio una visione in tempo reale e verificabile di ogni decisione presa dal sistema, senza richiedere il supporto ingegneristico per accedervi. Gli utenti possono tracciare il totale delle transazioni valutate, le suddivisioni delle decisioni (approvate, segnalate, bloccate), i punteggi di frode recenti con dettagli a livello di carta e le distribuzioni di probabilità di frode, il tutto con aggiornamento automatico ogni 10 secondi. Questo è lo strato operativo che rende il sistema utilizzabile nella pratica, non solo tecnicamente funzionale.

L'intuizione chiave è che tutto funziona su un'unica piattaforma. Lo stesso motore Spark che alimenta il tuo ETL batch e l'addestramento ML ora gestisce lo streaming in meno di 300 ms. Unity Catalog ora governa sia le tue tabelle di streaming che i tuoi dati di addestramento. MLflow ora traccia i tuoi modelli di frode, sia che vengano utilizzati nell'inferenza batch o nello scoring in tempo reale. Non ci sono lacune di integrazione, nessuna divisione della governance e nessun secondo stack da mantenere perché tutto è sulla stessa piattaforma.
Questo Solution Accelerator è progettato per essere progressivamente adattabile: inizia in modo semplice e aggiungi complessità se necessario.
Il percorso più veloce è con Databricks Asset Bundles — basta clonare, distribuire ed eseguire:
Il bundle esegue automaticamente il provisioning di un cluster configurato correttamente ed esegue tutti i notebook in sequenza.
La modalità in tempo reale è generalmente disponibile su Databricks su AWS, Azure e GCP. Il Solution Accelerator per il rilevamento delle frodi è open-source e pronto per essere distribuito.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.