고객 사례

행동 AI를 사용해 모바일 사용자를 사기 행위로부터 보호

95%

코드 성능 향상

10TB

매일 생성되는 데이터

배경 이미지

“Databricks gives us the scalability and efficiency we need to build complex, end-to-end products using big data and machine learning.”

— Eric Yatskowitz, Data Scientist, T-Mobile Marketing Solutions

T-Mobile Marketing Solutions 팀은 모바일 사용자에 대한 사기를 예방하기 위해 마케팅 조직에서 각종 광고 사기를 탐지하는 데 사용할 수 있는 간소화된 확장형 E2E 솔루션을 구축할 필요가 있었습니다. Apache Spark™를 사용하여 다양한 앱 환경과 사용자 행동에 적응하는 맞춤형 모델과 고유한 알고리즘을 개발했지만, 이 초기 솔루션은 복잡하고 확장에 많은 비용이 들었습니다. 하지만 Databricks와 클라우드 기반 플랫폼으로 옮기면서 놀라운 성과를 얻었습니다. 코드 실행 시간이 엄청나게 단축되었고, T-Moble 네트워크 데이터를 사용해 실시간으로 광고 사기를 탐지할 수 있었으며, 내부 팀이 조사를 통해 위험을 분석하고 사기를 신고할 수 있는 편리한 맞춤형 대시보드도 제공되었습니다.

사기 탐지 자동화 및 대규모 위험 평가

2019년에는 광고 사기로 인해 디지털 광고주가 본 손실액은 약 230억 달러에 달했으며, 그 손실은 더욱 커지고 있습니다. T-Mobile은 광고 사기가 광고 노출 위치와 캠페인에서 어디서 어떻게 영향을 미칠지 알아낼 방법이 필요했습니다. 디지털 광고는 여러 동적 요소로 구성되며, 알고리즘을 통해 광고 비용, 광고 게재 대상, 게재 버전 등 모든 것을 불과 1초 안에 결정합니다. 이토록 빠른 속도에도 사기범들은 봇 파밍이나 도메인 스푸핑을 통해 각 동적 요소에서 범죄의 기회를 포착해 냅니다.

T-Mobile은 사기를 대규모로 정확하고 효율적으로 찾아내는 내부 솔루션을 개발하기 위해 기기와 네트워크로 구성된 방대한 자체 네트워크를 활용하기로 했습니다. Yatskowitz 님은 "우리 네트워크에서 이루어지는 수십억 건의 온라인 광고 트랜잭션의 상태를 추적할 수 있어야 했습니다. 이 데이터를 사용해 다양한 타입의 사기를 지속적으로 찾아내면서도 T-Mobile에서 매일 수집하는 4~10TB의 데이터를 처리하기 위한 확장 가능한 모델을 개발해야 했습니다."라고 언급합니다.

이런 규모와 성능이 필요했던 T-Mobile 데이터 팀은 처음에는 온프레미스 환경에서 Apache Spark™를 사용하려고 했습니다. 그러나 데이터 요구 사항에 맞춰 확장 가능한 E2E 분석 인프라를 구축하는 작업이 얼마나 복잡한지를 과소 평가했습니다. 이 예비 솔루션을 사용하고 나서는 데이터보다 DevOps와 인프라에 투자하는 시간이 늘었습니다.

T-Mobile 팀은 대규모로 운영을 단순화하는 동시에 Spark의 빠른 데이터 처리 속도를 이용할 수 있고 머신 러닝도 대규모로 지원하는 클라우드 기반 플랫폼으로 옮기기로 했습니다.

온프레미스 인프라의 복잡성 제거

T-Mobile 데이터 팀은 Databricks를 사용해 내부 광고 사기 탐지 솔루션을 강화하기로 했습니다. Azure Databricks로 전환한 결과, 인프라를 관리하고 클러스터를 유지하는 데 따르는 복잡성이 제거되었습니다. 그 덕분에 T-Mobile 데이터 팀은 효율성을 높이고 전반적으로 코드 실행 시간을 단축함으로써 모델 정확도 개선 및 사기 탐지 최적화를 위한 상용 알고리즘 개발에 집중하고, T-Mobile 마케팅 조직이 위험 완화 및 광고 노출 위치에 대해 현명한 데이터 기반 결정을 내리도록 지원할 수 있었습니다.

Yatskowitz 님은 "Databricks로 분석 워크플로를 매우 단순화한 덕분에, 광고 사기 가능성을 알려주는 행동 데이터를 파악하고 평가하는 모델을 쉽게 개발할 수 있게 되었습니다."라고 말합니다.

T-Mobile 데이터 사이언티스트들은 머신 러닝 모델을 사용해 광고 사기 신호를 정확히 찾아내기 위해 Databricks의 인터랙티브 워크스페이스를 사용하면서, 효율적으로 협업하고 인프라 제한 없이 모델을 훈련합니다. 또한 MLflow를 사용한 작업 자동화, 모델 성능 모니터링 및 튜닝을 통해 ML 수명 주기를 간소화합니다.

이들이 개발한 한 모델은 Normalized Entropy라는 알고리즘을 실행합니다. 이 공식은 네트워크 이벤트에 따른 예상 행동을 나타내어 비정상적인 행위를 찾아내 잠재적 사기 징조를 점수로 표시해 줄 수 있습니다. 이 알고리즘은 앱, 트래픽 수준, 인구 통계학적 정보의 변동을 설명하는 추가적인 지표와 결합하여 T-Mobile 마케팅 팀이 간소화된 UI를 통해 각 웹사이트 및 애플리케이션의 잠재적 광고 위험을 평가하는 데 필요한 인사이트를 제공합니다.

더 스마트한 의사 결정을 지원하는 솔루션 제공

E2E 광고 사기 탐지 서비스를 구축하는 데 시간과 노력이 들었지만, 그만큼 값진 결과를 얻었습니다. T-Mobile은 Databricks를 분석 및 ML 플랫폼의 기반으로 삼아 모든 데이터를 탐색할 수 있으며 AI에 기반한 혁신에 박차를 가하고 있습니다.

Yatskowitz 님은 “Databricks 덕분에 빅데이터와 머신 러닝을 사용하는 복잡한 E2E 제품을 구축하는 데 필요한 확장성과 효율성을 얻었습니다. PySpark를 사용해서 예전보다 훨씬 빠르게 실행되는 코드를 생성할 수 있었고, 총 운영 시간이 8분에서 23초로 단축되었습니다. 매일 실행하는 코드의 경우, 연 단위로 따졌을 때 컴퓨팅 시간이 훨씬 더 많이 확보됩니다. 게다가 지속적인 모니터링 없이도 성능과 위험 이상 탐지를 추적할 수 있습니다.”라고 말합니다.

T-Mobile 팀은 이 기술 스택으로 자체적으로 보유한 방대한 데이터를 완전히 활용하여 사기와 악의적 행동 차단을 위해 지속하는 노력의 효과를 높일 뿐 아니라, 고객들 사이에서 T-Mobile 경험을 개선하는 새로운 데이터 기반 혁신을 추진할 수 있으리라 자신합니다.