초당 지연 시간과 확장 가능한 데이터 인텔리전스로 금융 생태계 현대화
작성자: Sixuan He , Navneeth Nair
카드 사기는 몇 초 안에 발생합니다. 도난당한 신용카드 번호는 몇 분 안에 수십 건의 구매에 사용될 수 있으며, 거래가 완료되면 해당 자금을 회수하는 것이 기하급수적으로 어려워집니다. Nilson Report에 따르면 금융 기관은 연간 약 330억 달러를 사기 카드 거래로 잃고 있으며, 디지털 거래량이 가속화됨에 따라 이 수치는 더욱 증가할 것입니다.
문제는 사기를 탐지하는 것이 아닙니다. 대부분의 조직은 이미 유능한 사기 탐지 모델과 잘 조정된 규칙을 갖추고 있습니다. 문제는 승인과 결제 사이의 짧은 시간 내에 의심스러운 거래를 차단할 만큼 빠르게 탐지하고, 운영 복잡성을 두 배로 늘리는 별도의 전문 스트리밍 엔진을 추가하지 않고 이를 수행하는 것입니다.
이 블로그에서는 Databricks 환경에 직접 복제하여 배포할 수 있는 오픈 소스 참조 구현인 새로운 솔루션 가속기를 소개합니다. 이 솔루션은 원시 거래 수집 및 실시간 ML 채점부터 Databricks Apps를 사용하여 구축된 실시간 모니터링 대시보드에 이르기까지 Databricks 플랫폼 전체에서 완전한 엔드투엔드 사기 탐지 시스템을 구축하는 방법을 보여줍니다. 핵심에는 두 가지 기술이 있습니다. Databricks의 Apache Spark Structured Streaming에 대한 Real-Time Mode(RTM)로, 300ms 미만의 스트림 처리를 제공하고, Databricks 플랫폼에 내장된 완전 관리형 서버리스 Postgres 데이터베이스인 Lakebase입니다.
사기 탐지는 두 가지 상충되는 요구 사항의 교차점에 있습니다.
한편으로는 속도가 있습니다. 사기 거래는 결제되기 전에 수백 밀리초 이내에 식별되고 차단되어야 합니다. 정교한 사기 집단은 빠른 속도로 소액 구매를 통해 도난당한 카드를 테스트하고, 지리적 변칙을 악용하며, 정적 규칙으로는 따라잡을 수 없는 속도로 패턴을 조정합니다.
다른 한편으로는 단순성이 있습니다. 데이터 팀은 통합된 거버넌스, 공유 데이터 및 단일 도구 세트를 사용하여 단일 플랫폼에서 사기 모델을 구축, 학습 및 배포하기를 원합니다. 실시간 채점의 "마지막 단계"만을 위해 별도의 스트리밍 스택을 유지하고 싶어하지 않습니다.
지금까지 팀은 선택해야 했습니다. 역사적으로 이러한 초저 지연 시간 요구 사항을 충족하려면 Apache Flink와 같은 Spark 외에 특수 엔진을 도입해야 했습니다. 그 결과 익숙한 패턴이 나타납니다. 두 개의 병렬 시스템, 중복 데이터, 분할된 거버넌스, 그리고 엔지니어링 팀이 사기 모델 개선보다는 파이프라인 관리에 더 많은 시간을 소비합니다. Spark Structured Streaming에 RTM이 도입됨에 따라 이러한 절충은 더 이상 필요하지 않습니다.
RTM은 기능 엔지니어링과 같은 지연 시간에 민감한 운영 애플리 케이션을 위해 초당 데이터 처리를 가능하게 하는 Spark Structured Streaming 엔진의 발전입니다.
속도 측면에서 RTM은 밀리초 단위로 이벤트를 처리하며, 상태 비저장 변환, 조인 기반 보강 및 집계 워크로드에 걸쳐 Apache Flink보다 최대 92% 더 빠릅니다. Coinbase와 같은 고객은 이미 RTM을 사용하여 250개 이상의 ML 기능을 계산하고 있으며, 100ms 미만의 P99 처리 지연 시간을 달성했습니다.
단순성 측면에서 RTM은 옆이 아닌 이미 실행 중인 Spark 엔진 내부에 있습니다. 따라서 다음과 같은 이점을 즉시 누릴 수 있습니다.
결과적으로 팀은 더 이상 선택할 필요가 없으며, 속도와 단순성을 모두 얻을 수 있고, 엔지니어링 시간은 인프라 관리 대신 사기 신호 조정으로 돌아갑니다.
이를 구체화하기 위해 당사의 솔루션 가속기는 신용카드 거래에 대한 실시간 사기 탐지 시스템을 구현합니다. 시나리오는 다음과 같습니다.
거래는 메시징 시스템(Kafka, Kinesis 등)에서 스트리밍됩니다. 각 거래에는 카드 ID, 금액, 가맹점 범주, 지리 좌표 및 채널(온라인 대 POS)이 포함됩니다. 시스템은 각 거래를 여러 사기 신호에 대해 평가하고, 위험 점수를 할당하고, 승인, 검토 대상 플래그 지정 또는 차단 중 적절한 결과로 라우팅해야 합니다. 이 모든 것을 300ms 미만으로 완료해야 합니다.
이 아키텍처는 주요 금융 기관의 프로덕션 사기 시스템과 유사하며, 상태 추적, 온라인 서빙 계층으로서의 Lakebase에서의 기능 보강, ML 채점, 그리고 사기 분석가 모니터링을 위한 실시간 Databricks Apps를 포함합니다. 유일한 차이점은 모든 것이 단일 플랫폼에서 실행된다는 것입니다.

이 가속기는 마지막 단계를 기반으로 구축되는 네 가지 점진적인 단계를 거칩니다. 다음은 고수준 시스템 아키텍처 다이어그램입니다. 네 가지 주요 구성 요소에 걸친 깔끔한 데이터 흐름을 보여줍니다.
아래의 전체 엔드투엔드 데모 비디오를 확인하거나, 단계별 설명을 계속 읽으면서 정확히 어떻게 구축했는지 알아보세요. 복잡성을 더해가면서 빠른 시작 섹션(외부 종속성 없음)부터 시작하세요.
실시간 사기 인프라를 평가하는 금융 기관의 경우 빠른 가치 실현이 중요합니다. Quick Start 노트북을 사용하면 팀이 즉시 Real-Time Mode를 경험하고, 프로덕션 커밋 전에 5분 이내에 핵심 지연 시간 벤치마크와 플랫폼 적합성을 검증할 수 있습니다. Kafka에 연결하거나 외부에서 무언가를 구성할 필요가 없습니다. Spark의 내장 속도 소스를 사용하여 합성 거래를 생성하고, 사기 채점 로직을 적용하고, 노트북에서 결과를 실시간으로 표시합니다. 이것이 Real-Time Mode의 "hello world"입니다. 실행하고, 지연 시간 수치를 확인하고, 클러스터가 올바르게 구성되었는지 검증하세요.
Real-Time Mode가 검증되면 다음 노트북은 선도적인 FSI가 실시간 사기 의사 결정을 운영하는 방식을 반영하는 프로덕션 등급 사기 탐지 파이프라인을 구축합니다. 이 파이프라인은 거래를 엔드투엔드로 처리하며, 사기 운영 및 규정 준수 팀 모두에게 필요한 설명 가능한 채점을 제공합니다. 거래는 Kafka에서 5단계로 흐르며, 각 단계는 지속적으로 실행되고 각 단계는 지능을 추가합니다.

또한 다양한 TPS 수준에 걸쳐 종단 간 지연 시간 테스트를 수행했습니다. 결과는 일관된 성능을 보여주었으며, P50 지연 시간은 40ms 미만이고 P99 지연 시간은 215-392ms 범위였습니다. 이러한 결과는 Databricks 플랫폼에서 RTM을 사용하는 Kafka 입력, Kafka 출력 아키텍처가 외부 API 또는 추가 인프라에 의존하지 않고 낮은 지연 시간의 프로덕션 준비 성능을 제공할 수 있음을 보여줍니다.

정적 규칙 기반 사기 탐지는 감사에 친숙하지만 취약한 시스템을 만듭니다. 임계값은 임의적입니다. 60초에 5번의 거래가 "의심스러운" 이유는 무엇입니까? 4번이나 6번은 어떻습니까? 그리고 학습이 없기 때문에 시스템은 과거 결정으로부터 결코 개선되지 않습니다.
고급 노트북은 이 로직을 관리되는 머신러닝 모델로 업그레이드합니다. 이 전환을 통해 위험 팀은 잘못된 양성(false positive)을 줄이고, 새로운 사기 패턴에 적응하며, MLflow의 내장 실험 추적 및 버전 관리를 통해 규제 기관에 모델 계보를 입증할 수 있습니다. 이는 두 가지 새로운 플랫폼 기능을 도입합니다.

운영 가시성은 실시간 규제 보고 의무 하에 작업하는 사기 팀에게는 협상 불가능한 요소입니다. 시스템을 관찰 가능하게 만들기 위해 이 가속기에는 Lakebase에서 직접 읽어 라이브 사기 모니터링 대시보드를 제공하는 Streamlit 기반 Databricks 앱이 포함되어 있습니다. 이를 통해 사기 분석가와 위험 관리자는 엔지니어링 지원 없이 시스템이 내리는 모든 결정에 대한 라이브 감사 가능 보기를 얻을 수 있습니다. 사용자는 10초마다 자동 새로 고침되는 총 거래 점수, 결정 내역(승인, 플래그 지정, 차단), 카드 수준 세부 정보가 있는 최근 사기 점수 및 사기 확률 분포를 추적할 수 있습니다. 이것은 기술적으로 기능적일 뿐만 아니라 실제로 시스템을 사용할 수 있게 하는 운영 계층입니다.

핵심 통찰력은 모든 것이 단일 플랫폼에서 실행된다는 것입니다. 배치 ETL 및 ML 학습을 지원하는 동일한 Spark 엔진이 이제 300ms 미만의 스트리밍을 처리합니다. Unity Catalog는 이제 스트리밍 테이블과 학습 데이터를 모두 관리합니다. MLflow는 배치 추론 또는 실시간 채점에 사용되는지 여부에 관계없이 사기 모델을 추적합니다. 모든 것이 동일한 플랫폼에 있기 때문에 통합 격차, 거버넌스 분할 또는 유지 관리할 두 번째 스택이 없습니다.
이 솔루션 가속기는 점진적으로 조정 가능하도록 설계되었습니다. 간단하게 시작하고 필요한 경우 복잡성을 추가하십시오.
가장 빠른 경로는 Databricks 자산 번들을 사용하는 것입니다. 복제, 배포 및 실행만 하면 됩니다.
번들은 올바르게 구성된 클러스터를 자동으로 프로비저닝하고 모든 노트북을 순서대로 실행합니다.
실시간 모드는 AWS, Azure 및 GCP 전반의 Databricks에서 일반적으로 사용할 수 있습니다. 사기 탐지 솔루션 가속기는 오픈 소스이며 배포할 준비가 되었습니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.