Coinbase verfolgt die Mission, weltweit mehr wirtschaftliche Freiheit zu ermöglichen. Dafür bietet Coinbase eine vertrauenswürdige Krypto-Asset-Plattform – mit Funktionen für Handel, Staking, sichere Verwahrung, Zahlungen sowie schnelle und kostenlose Überweisungen weltweit. Um Nutzer vor Betrug zu schützen und personalisierte Empfehlungen bereitzustellen, müssen die Machine-Learning-Modelle von Coinbase mit Präzision im Subsekundenbereich arbeiten. Mikrobatch-Architekturen, die primär für ETL-Anwendungsfälle ausgelegt sind, verursachten jedoch Latenzen. Das beeinträchtigte die Modellgenauigkeit und trieb die Rechenkosten in die Höhe. Durch die Migration zu Spark Structured Streaming Real-Time Mode auf Databricks hat Coinbase seine Dateninfrastruktur transformiert: Die Latenz bei der Feature-Berechnung sank auf Millisekunden, die Feature-Konsistenz stieg auf 99 %, und zugleich wurden Hunderttausende an Infrastrukturkosten eingespart. So wird präzisere Betrugserkennung in Echtzeit und im großen Stil möglich.
Veraltete Daten setzten die Betrugsmodelle unter Druck
Coinbase nutzt Machine Learning für zentrale Anwendungsfälle wie Betrugserkennung, das Aufspüren verdächtiger Transaktionen und die Eindämmung von Geldwäsche. Dafür sind hochpräzise ML-Modelle erforderlich, die nahezu in Echtzeit arbeiten.
Vor dem Umstieg auf den Real-Time Mode (RTM) hatte das Plattformteam bei Coinbase Spark Structured Streaming im Microbatch-Modus (MBM) so weit optimiert, wie die Architektur es zuließ. Insbesondere entwickelte das Team innovative Lösungen, um aus dem MBM jede Millisekunde herauszuholen. Dadurch wurden schließlich Aktualisierungszeiten im Subsekundenbereich (~800–900 ms) erreicht – allerdings mit erheblichem operativem Aufwand. Bei Verzögerungen litt die Konsistenz zwischen den Online- und Offline-Features der Modelle, was die Genauigkeit mehrerer Risikomodelle beeinträchtigte.
Subsekundenpräzision mit dem Spark Real-Time Mode ermöglichen
Um diese Latenz- und Kostenhürden zu überwinden, verlagerte Coinbase seine kritischen Risikomodelle auf den Spark Real-Time Mode (RTM) auf Databricks. Die Einführung von RTM war unkompliziert: Das Engineering-Team musste lediglich den Trigger-Typ aktualisieren, während die zentrale Geschäftslogik vollständig unverändert bleiben konnte. Der nahtlose Wechsel zu RTM ermöglichte eine dramatische Performanceverbesserung: Durch den Umstieg von der Microbatch-Verarbeitung auf Echtzeit-Streaming sank die Latenz bei sehr hoher Skalierung von über 800 ms auf 100–250 ms.
Diese Umstellung verbesserte sofort die Aktualität der Daten, die in ihre ML-Pipelines einfließen, und erhöhte die Konsistenz. Dadurch konnten Modelle erstellt werden, die operative Systeme, die in Echtzeit synchronisiert sind, präzise abbilden. Um eine reibungslose Einführung sicherzustellen, implementierte das Plattformteam Leitplanken für die kontinuierliche Integration (CI) und entwickelte KI-Agenten, die die Einrichtung von Streaming-Funktionen automatisieren. So ließ sich RTM nahtlos in den bestehenden Feature Store integrieren.
„Unsere Machine-Learning-Ingenieure mussten sich nicht mit den Feinheiten des Real-Time Mode vertraut machen“, erklärte Kamila Wickramarachchi, Software Engineer bei Coinbase. „Wir haben einfach die erheblichen Verbesserungen bei Datenaktualität und -konsistenz geliefert – und sie haben den Mehrwert sofort in den Ergebnissen gesehen.“
Schnellere Einblicke zu einem Bruchteil der Kosten
Seit der Implementierung von RTM hat Coinbase seine Betrugsbekämpfung verbessert, da die Risikomodelle auf die aktuellsten Transaktionsdaten zugreifen. Die Latenz sank in den Subsekundenbereich – 150 ms für zustandslose Feature-Aggregationen und 250 ms für zustandsbehaftetes Streaming. Die Konsistenz zwischen Online- und Offline-Features wurde um bis zu 98 % verbessert.
Diese architektonische Änderung versetzte das Team in die Lage, eine bemerkenswerte Skalierung und Geschwindigkeit zu erreichen. Wie Daniel Zhou, Senior Staff Machine Learning Platform Engineer bei Coinbase, erklärt: „Mit dem Real-Time Mode in Spark Structured Streaming konnten wir die End-to-End-Latenzen um über 80 % senken, P99-Latenzen unter 100 ms erreichen und unsere Echtzeit-ML-Strategie im großen Maßstab deutlich effizienter gestalten.“ Dank dieser Performance können wir mehr als 250 ML-Features berechnen – alle über eine einheitliche Spark-Engine."
Neben den Performance-Verbesserungen konnte Coinbase dank RTM die zuvor für den Microbatch-Modus benötigten spezialisierten, stark überprovisionierten Cluster stilllegen. Damit änderte sich ihre Kostenstruktur grundlegend, und das Team konnte seine Compute-Kosten halbieren.
„Neben den enormen Verbesserungen bei Datenaktualität und -konsistenz konnten wir auch eine deutliche Kostensenkung erzielen“, fügte Wickramarachchi hinzu. „Wir schätzen, dass uns dieser Architekturwechsel allein in diesem Jahr rund 51 % der Compute-Kosten einsparen wird.“



