주요 컨텐츠로 이동
Coinbase logo

고객
사례

Databricks는 Coinbase의 실시간 사기 탐지를 구동합니다.

<100ms

대규모에서 달성한 P99 레이턴시

99%

모델 간 온라인/오프라인 피처 일관성

51%

연간 예상 compute 비용 절감액

Databricks powers real-time fraud detection at Coinbase

Coinbase의 미션은 거래, 스테이킹, 안전 보관, 사용, 빠르고 무료인 글로벌 송금을 포함한 암호화폐 자산을 위한 신뢰할 수 있는 플랫폼을 제공하여 전 세계의 경제적 자유를 증진하는 것입니다. 사용자를 사기로부터 보호하고 개인 맞춤 추천을 제공하기 위해 Coinbase는 머신러닝 모델에 1초 미만의 정밀도를 요구합니다. 하지만 주로 ETL 사용 사례를 목적으로 하는 마이크로배치 아키텍처는 오히려 지연 시간을 발생시켜 모델 정확도에 영향을 미치고 컴퓨팅 비용을 상승시켰습니다. Coinbase는 Databricks의 Spark Structured Streaming 실시간 모드 로 마이그레이션하여 데이터 인프라를 혁신했습니다. 그 결과 피처 계산 지연 시간을 밀리초 단위로 단축하고 99%의 피처 일관성을 달성했으며 수십만 달러의 인프라 비용을 절감하여 대규모로 더 정확한 실시간 사기 탐지를 강화했습니다.

오래된 데이터로 인해 사기 탐지 모델이 한 발 뒤처졌습니다.

Coinbase는 사기 탐지, 의심스러운 거래 포착, 자금 세탁 방지 위험 완화와 같은 주요 사용 사례를 지원하기 위해 머신러닝을 활용합니다. 이러한 기능을 제공하려면 거의 실시간으로 작동하는 매우 정확한 ML 모델이 필요합니다.

Coinbase 플랫폼 팀은 실시간 Mode(RTM)를 채택하기 전, 아키텍처가 허용하는 범위까지 마이크로배치 Mode(MBM)에서 Spark Structured Streaming 을 최적화했습니다. 특히, 팀은 MBM의 모든 밀리초를 극대화하기 위한 혁신적인 솔루션을 구축하여 결국 1초 미만의 최신성(~800-900ms)에 도달했지만, 이는 막대한 운영 부담을 수반했습니다. 지연이 발생하면서 모델의 온라인 및 오프라인 피처 일관성에 부정적인 영향을 미쳤고, 이는 여러 리스크 모델의 정확도를 저하시켰습니다.

Spark 실시간 모드로 구현하는 1초 미만 정밀도

이러한 레이턴시 및 비용 문제를 극복하기 위해 Coinbase는 중요한 리스크 모델을 Databricks의 Spark 실시간 Mode (RTM) 로 전환했습니다. RTM 도입은 간단했습니다. 엔지니어링 팀은 Trigger 유형만 업데이트하면 되었으므로 핵심 비즈니스 로직을 전혀 변경할 필요가 없었습니다. 이러한 RTM으로의 원활한 전환은 마이크로배치 처리에서 실시간 스트리밍으로 이동하여 성능을 획기적으로 개선했으며, 대규모 환경에서 처리 시간을 800ms 이상에서 100~250ms로 단축했습니다.

이러한 전환은 ML 파이프라인에 공급되는 데이터의 최신성을 즉시 개선했고, 이를 통해 실시간으로 동기화되는 운영 시스템을 정확하게 반영하는 모델을 일관성 있게 생성할 수 있게 되었습니다. 플랫폼 팀은 원활한 도입을 보장하기 위해 지속적 통합(CI) 가드레일 을 구현하고, 스트리밍 피처 설정을 자동화하는 AI 에이전트를 만들어 RTM을 기존 피처 스토어에 원활하게 통합했습니다.

"저희 Machine Learning 엔지니어들은 실시간 Mode의 복잡한 내용까지 배울 필요가 없었습니다."라고 코인베이스의 소프트웨어 엔지니어인 카밀라 위크라마라치가 언급했습니다. "저희는 단지 데이터 신선도와 일관성을 대폭 개선하여 제공했을 뿐인데, 그들은 결과의 가치를 즉시 알아보았습니다."

적은 비용으로 더 빠른 인사이트 확보

Coinbase는 RTM을 도입한 이후, 위험 모델이 최신 거래 데이터에 따라 작동하도록 보장함으로써 사기 완화 능력을 향상시켰습니다. 지연 시간이 1초 미만으로 감소하여 상태 비저장 특성 집계는 150ms, 상태 저장 스트리밍 특성 집계는 250ms를 달성했습니다. 온라인 및 오프라인 피처 일관성이 최대 98% 향상되었습니다.

이러한 아키텍처 전환을 통해 팀은 놀라운 규모와 속도를 달성할 수 있었습니다. Coinbase의 수석 Machine Learning 플랫폼 엔지니어인 Daniel Zhou가 설명했듯이, "Spark Structured Streaming의 Real-Time Mode를 활용하여 엔드투엔드 지연 시간을 80% 이상 단축하고 P99를 100ms 미만으로 달성했으며, 대규모 실시간 ML 전략을 간소화했습니다." 이러한 성능을 통해 통합된 Spark 엔진으로 250개가 넘는 ML 특성을 모두 컴퓨팅할 수 있습니다."

성능 향상 외에도 RTM 덕분에 Coinbase는 이전에 마이크로배치 모드에 필요했던 전문화되고 과도하게 프로비저닝된 클러스터의 사용을 중단할 수 있었습니다. 이를 통해 비용 구조가 근본적으로 바뀌었고, 팀은 compute 비용을 절반으로 절감했습니다.

"데이터 최신성과 일관성이 대폭 개선되었을 뿐만 아니라 엄청난 비용 절감 효과도 거두었습니다."라고 Wickramarachchi는 덧붙였습니다. "이 아키텍처 전환을 통해 올해에만 컴퓨팅 비용을 51% 절감할 수 있을 것으로 예상합니다."

자세히 살펴보기

시작할 준비가 되셨나요?