주요 컨텐츠로 이동
금융 서비스

Databricks 기반의 현대적인 BSA/AML 컴플라이언스

Databricks 데이터 인텔리전스 플랫폼이 사일로화된 AML 시스템, ML 위험 평가, 다양한 AI 에이전트를 경보(alert)부터 SAR 제출까지 하나의 거버넌스된 워크플로우로 통합하는 방법

작성자: Kateryna Savchyn , Pavithra Rao, Mimi Park , Emerson Bayuk

  • 무엇인가요? Databricks 데이터 인텔리전스 플랫폼을 기반으로 구축된 AML 분석가 및 경영진을 위한 통합된 AI 에이전트 및 머신러닝 강화 경험입니다.
  • 어떤 문제를 해결하나요? AML 조사 과정에서 분석가 시간의 대부분을 소모하는 사일로화된 시스템을 통합하고, 규칙 기반 탐지를 ML 기반 위험 평가로 보완하며, 단일 거버넌스 환경에서 SAR 보고서 작성 시간을 수 시간에서 수 분으로 단축합니다.
  • AML 팀은 어떤 결과를 기대할 수 있나요? 사건 처리 속도 810배 단축, 오탐률 75% 감소, 중대형 기관의 경우 연간 5,000만1억 5,000만 달러의 비용 절감 효과를 기대할 수 있습니다.

금융 서비스의 자금세탁방지(AML) 기능은 역사적으로 두 가지 책임, 즉 잠재적인 자금세탁 활동에 대한 경고를 해제하고, 필요한 경우 의심거래보고(SAR)를 제출하는 것을 포함하여 모든 사례의 처리 결과를 기록하는 동시에 프로그램의 효과성과 프로세스 감사 가능성을 유지하는 것을 중심으로 구성되어 왔습니다. 이 모델은 현재 압박을 받고 있습니다. 진화하는 금융 범죄 유형, 실시간 설명 가능성에 대한 규제 당국의 기대, 생성형 AI의 성숙은 현대적인 AML 실무의 모습을 재정의하고 있습니다. AML 리더들은 분석가의 시간을 오늘날 업무의 대부분을 차지하는 데이터 수집, 오탐(false-positive) 분류, 보고서 초안 작성 대신 실제 금융 범죄 인텔리전스에 집중하도록 요구받고 있습니다.

제약 요인은 인재나 의지가 부족해서가 아닙니다. 분산된 시스템, 불투명한 벤더 스코어링, 수동 증거 수집으로 인해 모든 경고에 가해지는 구조적 지체 때문입니다. 이러한 지체 요인이 제거되지 않는 한, AML 프로그램은 아무리 많은 자금이 지원되더라도 미처리 업무를 해결하는 수준에 머무를 수밖에 없습니다.

AML 운영이 생산성의 한계에 부딪히는 이유

오늘날 일반적인 AML 조사 주기는 수동으로 진행되며 오류가 발생하기 쉽습니다. 분석가들은 고객 확인 제도(KYC), 거래 모니터링, 제재 대상 스크리닝, 케이스 관리, 부정적 미디어 보도, 실소유주 확인, 내부 CRM, 지점 로그, 규제 지식 베이스를 포함하여 10개 이상의 분산된 시스템에서 데이터를 추출하고 연관성을 분석하는 데 케이스당 3~6시간을 소비하며, 이 데이터들은 스프레드시트와 Word 템플릿에 수동으로 취합됩니다. 이 시간의 대부분은 오탐(false positive)에 소요됩니다. PwC는 거래 모니터링 시스템에서 생성되는 모든 경고의 90~95%가 조치가 필요 없는 것으로 추정하지만, 증거를 자동으로 연결해 주는 장치가 없기 때문에 각 경고는 실제 탐지 건과 동일한 조사 노력을 소모합니다. 1세대 규칙 기반 모니터링은 현대적인 AI 기반 금융 사기 기법에 점점 더 뒤처지고 있습니다.

이러한 지체 현상은 다음 네 가지 영역에서 나타납니다.

  • 10개 이상의 분산된 시스템. 분석가가 사실상 통합 레이어 역할을 하고 있습니다. 각 경고마다 여러 벤더 포털에 다시 로그인하고, 값을 작업 문서에 복사하고, 식별자를 수동으로 대조해야 합니다.
  • 높은 오탐률. 진화하는 금융 범죄 유형에 맞춰 지속적으로 업데이트되지 않는 탐지 규칙과 모델은 실제 활동 패턴과 어긋나 결국 무해한 것으로 판명되는 거래에 대해 경고를 생성할 수 있습니다. 결과에 관계없이 각 경고는 여전히 동일하게 3~6시간의 조사 노력을 소모합니다.
  • 수동 케이스 문서화. 모든 케이스는 규제 감사를 위해 에스컬레이션, 오탐으로 인한 기각, 또는 SAR 제출과 같은 서면 처리 결과를 문서화하여 보관해야 합니다. 분석가들은 케이스마다 동일한 규정을 인용하고 동일한 증거 패킷을 구성하면서 이러한 보고서를 처음부터 직접 작성합니다. Bank Policy Institute의 설문조사 데이터에 따르면, 은행 측에서 SAR 제출에만 소요되는 시간은 제출당 약 21.4시간으로, 이는 FinCEN 자체의 문서감축법(Paperwork Reduction Act) 추정치보다 10배 이상 많은 수치입니다.
  • 불투명한 벤더 스코어링. 패키지형 AML 플랫폼은 일반적으로 튜닝을 위한 시나리오 임계값을 노출하지만, 기본 모델 아티팩트, 피처 엔지니어링, 재학습 주기는 종종 벤더의 환경 내에 존재합니다. 이로 인해 금융 기관이 모델 리스크 관리 표준(예: SR 11-7)을 충족하고 규제 당국이 특정 점수가 어떻게 도출되었는지 문의할 때 신속하게 대응하기가 더 어려워집니다.

누적된 결과로 미처리 업무가 인력 충원 속도보다 빠르게 증가하고 있습니다. PwC EMEA AML Survey 2024에 따르면, 금융 기관의 44%가 금융 범죄 규제 강화를 준법 감시 운영을 복잡하게 만드는 가장 시급한 요인으로 꼽았으며, 향후 10년 동안 나타날 새로운 유형(실시간 결제, 임베디드 금융, 가상자산-법정화폐 브릿지, 대규모 합성 신원 등)은 이 격차를 더욱 벌려놓을 것입니다.

해결책: Databricks Data Intelligence Platform

미처리 업무 해결에서 본격적인 조사 단계로 나아가기 위해, AML 팀은 단순히 경고를 저장하는 것을 넘어 이를 분석하고 규제 당국이 기대하는 거버넌스 태세를 갖춘 플랫폼이 필요합니다. Databricks Data Intelligence Platform은 거래 모니터링, KYC, 제재 대상 스크리닝, 규제 지식, AI 에이전트를 Unity Catalog 거버넌스 하에 통합하여 원시 거래부터 제출된 SAR까지 전체 계보(lineage)를 제공합니다. 각 구성 요소는 전부가 아니면 전무한 방식이 아니라 모듈식으로 구성되어 있어, 금융 기관은 전체 스택을 엔드투엔드로 도입하거나 개별 요소를 기존 워크플로우에 계층화하여 적용할 수 있으며, 이는 이제 막 현대화를 시작하는 팀에 특히 유용합니다. 기존 AML 스택과 차별화되는 이 접근 방식의 6가지 핵심 역량은 다음과 같습니다.

1. Unity Catalog로 관리되는 통합 준법 감시 데이터 레이어

Unity Catalog는 10개 이상의 분산된 시스템을 거버넌스가 적용된 단일 레이크하우스로 통합합니다. 코어 뱅킹, 거래 모니터링 스트림, KYC 프로필, 제재 대상 적발 내역, 케이스 이력, 금융 기관의 AML 정책 문서 라이브러리는 Lakeflow Connect를 통해 Bronze → Silver → Gold 메달리온 아키텍처로 수집됩니다. 이 과정에서 Delta 기반의 데이터 품질 보장, 고객 PII(개인정보)에 대한 컬럼 마스킹, 팀 및 역할에 따른 행 수준 보안이 적용됩니다. 모든 다운스트림 아티팩트, 위험 점수, 에이전트의 증거 체인, SAR 보고서는 원본 행과 수집 타임스탬프까지 계보가 추적됩니다. 조사관이 경고를 유발한 원인, 제출을 뒷받침하는 증거, 또는 금융 기관이 구조적으로 유사한 케이스를 처리한 방식을 물을 때, 분석가의 기억에 의존하는 대신 재현 가능한 쿼리로 답변할 수 있습니다. 거버넌스, 계보 추적, 품질 강제 적용은 별도의 추가 기능이 아니라 플랫폼 자체의 기본 속성입니다.

2. 탐지 및 위험 스코어링을 위한 엔드투엔드 ML

정적 규칙 엔진은 대체되는 것이 아니라 보완됩니다. Databricks Data Intelligence Platform은 데이터 과학 및 금융 범죄 대응 팀이 금융 기관 고유의 거래 이력, 고객 기반, 위험 프로필에 맞춤화된 최첨단 ML 모델을 개발, 학습 및 서빙할 수 있는 기반을 제공하여 경고 대기열과 조사 컨텍스트 모두에 더 풍부한 신호를 제공합니다. 모델은 챔피언/챌린저 에일리어스 및 전체 실험 추적 기능과 함께 MLflow에 등록되며, Model Serving은 활성 모델을 노출하고, Lakehouse Monitoring은 프로덕션 환경에서의 드리프트와 성능을 관찰하며, 추론 테이블은 챌린저 재학습에 반영되는 분석가의 피드백을 캡처합니다. 챌린저 모델의 우수성이 입증되면 팀은 MLflow의 수명 주기 관리를 통해 이를 승격시킵니다. 모든 경고는 이를 유발한 비즈니스 규칙과 ML 신호에 대한 설명을 표시할 수 있으므로, 분석가는 케이스가 왜 대기열에 들어왔는지 이미 파악한 상태에서 조사를 시작할 수 있습니다. 그 결과, 기존의 거래 모니터링 규칙 엔진을 완전히 교체하지 않고도 분석가 대기열에 도달하는 오탐을 75% 줄일 수 있습니다.

3. 유기적으로 작동하는 특화된 AI 에이전트 그룹

현대화의 핵심은 Agent Bricks를 기반으로 구축되어 조사 과정에서 특화된 하위 에이전트 그룹을 조율하는 멀티 에이전트 채팅 어시스턴트입니다. 분석가는 데이터를 수동으로 교차 분석하기 위해 여러 시스템에 로그인하는 대신, 과거 실사 노트, 케이스 노트, 이전 SAR 제출 내역, 거래 패턴, 엔티티 관계를 단일 뷰로 보여주는 단일 조사 페이지에서 작업합니다. 에이전트 그룹은 사용 가능한 전체 데이터 네트워크를 스캔하고 케이스 처리 방법에 대한 전문적인 권장 사항을 반환하며, 최종 결정(전문 팀으로 에스컬레이션, 오탐으로 기각, 또는 SAR 제출 진행)은 사람이 직접 내리게 됩니다. 엔드투엔드 효과로, 이전에는 3~6시간의 수동 작업이 필요했던 조사가 에이전트의 지원을 받는 단 몇 분간의 검토로 압축됩니다.

4. AI 지원을 통한 SAR 생성 시간 단축 (몇 시간에서 몇 분으로)

분석가가 SAR 제출을 진행할 때, 동일한 에이전트 플릿이 조사 과정에서 수집된 컨텍스트 메타데이터를 미리 채우고 보고서를 위한 맞춤형 개요 및 내러티브 초안을 작성합니다. 분석가는 사실 관계를 확인하고 맞춤화하여 PDF를 생성하며, AI는 제출 전에 기관에서 요구하는 형식 사양에 맞게 문서를 구조화합니다. 제출된 보고서는 감사 가능성 관점에서 완전히 추적 가능한 기록과 함께 백엔드로 전송됩니다. 기존에는 몇 시간이 걸리던 SAR 보고서 작성이 단 몇 분 만에 완료됩니다. 또한, 이를 통해 루프가 자동으로 닫히고, 나머지 AML 팀이 병렬로 활발히 분석 중인 사건에 대한 추가 컨텍스트 및 증거로 제출 자료가 즉시 노출됩니다.

5. 네트워크 패턴 감지를 위한 그래프 시각화

분석가 워크벤치의 대화형 시각화를 통해 제공되는 그래프 레이어를 사용하면 분석가가 조사 페이지에서 전체 그래프 보기로 이동하거나, 그래프 자체에 자연어로 질문을 던지거나, 개별 엔티티로 바로 이동하여 거래 상대방 관계를 탐색할 수 있습니다. 이를 통해 페이퍼 컴퍼니, 자금 세탁용 다단계 송금 구조, 순환 자금 흐름 등 규칙 기반 시스템이 놓치기 쉬운 숨겨진 네트워크 패턴을 발견할 수 있습니다.

6. 자연어 인터페이스를 활용한 임원용 보고

AML 리더십은 사건 수 KPI, 소요 시간, 기한이 지난 알림, 감지 및 노후화 트렌드 라인, 감지부터 팀 배정 및 해결까지의 프로세스 흐름 시각화, 시나리오 및 심각도별 세부 분석을 보여주는 임원용 뷰를 확인할 수 있습니다. 팀 성과(Team Performance) 뷰에서는 인시던트 처리량, 마감일 압박, 감지 유형 및 팀별 평균 처리 시간을 상세히 분석하여 프로세스의 병목 현상을 쉽게 파악하고 중요한 마감일을 맞추기 위해 팀을 재조정할 수 있는 기회를 제공합니다. 거버넌스가 적용된 동일한 데이터에 대한 자연어 채팅을 통해 분석 팀을 기다릴 필요 없이 트렌드를 셀프 서비스로 심층 분석할 수 있습니다. Genie를 사용하면 AML 리더가 "지난 분기에 어떤 자문가 관계가 가장 많은 구조화 알림을 유발했으며, 팀별 오탐률은 어떻게 되나요?"라고 질문하고 몇 초 만에 감사에 바로 사용할 수 있는 답변을 얻을 수 있습니다.

결론: AML 리더십을 위한 새로운 표준

AML 팀은 더 이상 분석가의 생산성과 규제 방어력 사이에서 양자택일을 할 필요가 없습니다. 알림, 증거, 에이전트, 감사 추적이 계보(lineage)가 추적되는 동일한 환경에 공존하는 거버넌스 기반 데이터 인텔리전스 플랫폼은 이 두 가지를 모두 제공합니다. "더 많은 분석가, 더 많은 벤더, 더 많은 스프레드시트"라는 기존의 방식은 컴플라이언스 데이터를 통합하고 AI 에이전트가 다중 소스 조사 업무를 수행하도록 하는 금융 기관을 상대로 더 이상 경쟁력이 없습니다. 이러한 변화는 미래의 지향점이 아니라 오늘날 바로 실행 가능한 운영상의 결정입니다.

아키텍처 요약

이 솔루션은 Databricks 데이터 인텔리전스 플랫폼에서 제공하는 5가지 기능으로 구성됩니다:

  • 수집 및 거버넌스. Lakeflow Connect는 코어 뱅킹, 거래 모니터링 스트림, KYC 프로필, 제재 대상 매칭, 사건 이력 및 정책 문서를 Delta의 Bronze → Silver → Gold 메달리온으로 수집하며, Unity Catalog가 열 마스킹, 행 수준 보안 및 엔드투엔드 계보를 강제 적용합니다.
  • 스코어링. 기관 자체의 거래 이력 및 위험 프로필에 맞게 조정된 감지 모델은 챔피언/챌린저 별칭과 함께 MLflow를 통해 학습 및 서빙됩니다. Model Serving은 활성 모델을 노출하고, Lakehouse Monitoring은 드리프트를 모니터링하며, 추론 테이블은 챌린저 재학습에 제공되는 분석가 피드백을 캡처합니다.
  • 추론. Agent Bricks를 기반으로 구축된 멀티 에이전트 어시스턴트는 구조화된 쿼리를 위한 Genie 에이전트, 기관의 규제 및 정책 라이브러리에 대한 Vector Search를 지원하는 RAG 지식 어시스턴트, MCP 마켓플레이스를 통해 노출되는 외부 에이전트, 엔티티를 해결하고 숨겨진 거래 상대방 구조를 밝혀내는 그래프 레이어를 오케스트레이션합니다.
  • 운영 상태. Databricks Lakebase는 레이크하우스와 완전히 통합된 관리형 Postgres 데이터베이스로, 에이전트 및 애플리케이션의 운영 백엔드 역할을 합니다. 사건 상태, 분석가 메모, 에이전트 대화 이력, SAR 초안 및 워크플로 상태는 낮은 대기 시간의 읽기 및 쓰기를 통해 Lakebase에 영구 저장되는 동시에, 분석 데이터에 적용되는 것과 동일한 Unity Catalog 거버넌스, 계보 및 액세스 제어 하에 Delta 테이블과 동기화된 상태를 유지합니다.
  • 분석가 및 임원 경험. Databricks Apps는 분석가 조사 워크벤치, 임원용 뷰, 그래프 탐색기 및 SAR 제출 화면을 제공하며, 제출된 보고서에 대한 완전한 감사 추적성을 바탕으로 Lakebase를 통해 운영 상태를 읽고 씁니다.

모듈형 배포

이 5가지 레이어는 독립적으로 배포하거나 전체 스택으로 배포할 수 있습니다. 이미 자체 거래 모니터링 엔진을 운영 중인 은행은 스코어링 또는 추론 레이어만 도입하여 기존 알림에 ML 위험 스코어링 및 AI 지원 조사를 추가할 수 있으며, 사건 관리는 성숙되어 있지만 데이터가 분산되어 있는 은행은 수집 및 거버넌스 레이어부터 시작하여 소스를 먼저 통합할 수 있습니다. 모든 구성 요소가 동일한 데이터 인텔리전스 플랫폼 및 Unity Catalog 거버넌스를 공유하므로, 일부만 배포하더라도 플랫폼을 재구축할 필요 없이 전체 아키텍처로 점진적으로 확장할 수 있습니다.

모듈형 배포

이 5가지 레이어는 독립적으로 배포하거나 전체 스택으로 배포할 수 있습니다. 이미 자체 거래 모니터링 엔진을 운영 중인 은행은 스코어링 또는 추론 레이어만 도입하여 기존 알림에 ML 위험 스코어링 및 AI 지원 조사를 추가할 수 있으며, 사건 관리는 성숙되어 있지만 데이터가 분산되어 있는 은행은 수집 및 거버넌스 레이어부터 시작하여 소스를 먼저 통합할 수 있습니다. 모든 구성 요소가 동일한 데이터 인텔리전스 플랫폼 및 Unity Catalog 거버넌스를 공유하므로, 일부만 배포하더라도 플랫폼을 재구축할 필요 없이 전체 아키텍처로 점진적으로 확장할 수 있습니다.

실제 작동 모습 보기

데모 영상 보기!

워크스페이스에 솔루션 배포하기

▸ 문의하기: 지금 바로 기존 AML 워크플로에 이를 통합하려면 Databricks 어카운트 팀에 문의하세요!

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.