2024년 1월 5일

데이터브릭스로 복잡한 성향 평가 (Propensity Scoring) 시나리오 관리하기

노트북 다운로드 및 자세한 내용은 성향 평가에 대한 솔루션 액셀러레이터 페이지에서 확인하세요.

소비자들은 점점 더 개인화된 방식의 참여를 기대하고 있습니다. 최근 구매한 제품을 보완하는 제품을 홍보하는 이메일 메시지, 자주 검색하는 카테고리의 제품 세일을 알리는 온라인 배너 광고, 그리고 명시적 (또는 암시적)으로 관심을 가지는 동영상이나 기사 등을 통해 소비자들은 자신의 개인적인 필요와 가치를 인식하는 메시지를 선호한다는 것이 밝혀졌습니다.

이러한 소비자들의 선호를 충족시킬 수 있는 기업들은 타겟팅 콘텐츠를 통해 소비자 참여를 유도함으로써 더 높은 수익을 창출할 수 있는 기회를 얻게 됩니다. 그러나 이를 충족하지 못하는 기업들은 점점 더 복잡하고 분석적으로 정교한 리테일 환경에서 고객 이탈의 위험을 감수해야 합니다. 이로 인해 많은 기업들이 경제 불확실성으로 인해 다른 분야의 지출이 줄어들고 있음에도 불구하고 개인화에 상당한 규모의 투자를 하고 있습니다.

하지만 도대체 어디서부터 시작해야 할까요? 조직이 다양한 접점에서 고객 데이터를 수집하고 통합하는 프로세스를 구축했다면, 마케터는 이 데이터를 어떻게 활용해 더 나은 맞춤형 콘텐츠를 제공할 수 있을까요?

성향 평가 (Propensity Scoring)는 타겟팅 마케팅 캠페인을 구축하기 위해 가장 널리 채택되고 있는 접근 방식 중 하나입니다. 이 기본 기법은 고객이 특정 기간 내에 특정 품목을 더 자주 구매할지 여부를 예측하기 위해 간단한 머신 러닝 모델을 학습시키는 것을 의미합니다. 마케터는 예상 구매 확률을 활용하여 제품 관련 캠페인의 대상을 타겟팅할 뿐만 아니라, 원하는 결과를 이끌어내기 위해 사용할 메시지와 제안을 결정할 수 있습니다.

수많은 중복 모델 관리로 인한 복잡성 발생

대부분의 조직이 직면한 과제는 특정 성향 모델을 개발하는 것이 아니라 다양한 마케팅 캠페인에 필요한 수십, 수백 개의 모델을 지원해야 한다는 것입니다. 예를 들어, 한 기업이 여름 그릴 파티와 관련된 식료품에 초점을 맞춘 캠페인을 진행한다고 가정해 보겠습니다. 프로모션 팀은 특정 브랜드의 핫도그, 감자칩, 탄산음료, 맥주로 구성된 제품 그룹을 정의할 수 있으며, 마케팅 팀은 해당 그룹을 대상으로 하는 모델을 만들어야 합니다. 이 캠페인은 다른 캠페인과 동시에 실행될 수 있으며, 각 캠페인에는 중복된 제품 그룹과 관련된 모델이 있을 수 있습니다. 조직은 이러한 모델과 워크플로를 처리하면서 개별 고객의 제품 제안에 대한 수용도를 재평가하는 작업에 머지않아 직면하게 될 것입니다.

외부에서 보면 이 모든 작업은 매우 단순한 테이블 구조에 반영되어 있습니다. 이 구조 내에서 각 고객에게는 각 제품 그룹에 대한 점수가 할당됩니다(그림 1). 마케팅 팀은 이 점수를 사용하여 특정 캠페인 및 콘텐츠와 연결할 대상/세그먼트를 정의합니다. 하지만 이런 단순한 테이블 구조 내에서도 다양한 작업과 조정이 필요합니다.

Figure 1. A profile table presenting propensity scores assigned to customers for various product groupings

하지만, 이러한 점수를 정확하고 최신 상태로 유지해야 하는 데이터 사이언티스트와 데이터 엔지니어는 이 정보를 수집하기 위해 세 가지 개별 작업을 신중하게 조율해야 합니다.

이러한 복잡성은 세 가지 작업을 통해 해결할 수 있습니다.

이러한 작업 중 첫 번째는 기능 입력을 도출하는 것입니다. 이 중 일부는 시간이 지나면서 서서히 변화하는 사용자 또는 제품 그룹과 관련된 간단한 속성이지만, 대부분은 일반적으로 트랜잭션 기록에서 파생된 지표입니다. 새로운 트랜잭션이 발생할 때마다 이전에 도출된 메트릭은 날짜가 오래되어 데이터 엔지니어는 이러한 메트릭을 다시 계산하는 데 드는 비용과 이러한 값의 변화가 예측 정확도에 미치는 영향 사이에서 균형을 잡아야 하는 경우가 많습니다.

이 첫 번째 작업과 밀접하게 연관된 것이 성향 재추정 작업입니다. 특징이 다시 계산되면 이러한 값은 이전에 학습된 모델에 제공되어 업데이트된 점수를 생성합니다(이 점수는 프로필 테이블에 기록됩니다). 여기서 과제는 모든 다른 가구와 활성 모델에 대한 점수를 생성하는 것뿐만 아니라 특정 모델에서 수천 개는 아니더라도 수백 개에 달하는 특징 입력 중 어떤 것이 사용되는지 추적하는 것입니다.

마지막으로, 데이터 사이언티스트는 시간이 지남에 따라 고객 행동이 어떻게 변화하는지 고려하고 각 모델을 주기적으로 재훈련하여 과거 데이터에서 새로운 인사이트를 학습함으로써 향후 정확한 예측을 생성하는 데 도움이 되도록 해야 합니다.

데이터브릭스는 이러한 작업을 조정하는 데 도움을 드립니다.

다양한 모델을 다루면서 이러한 모든 문제를 해결하는 것은 다소 부담스럽게 느껴질 수 있지만, 이 프로세스를 관리해야 하는 데이터 사이언티스트와 엔지니어는 이러한 작업을 두 가지 일반적인 워크플로우의 일부로 관리하고, 이러한 프로세스를 지원하기 위한 데이터브릭스 플랫폼의 주요 기능을 활용하여 작업을 크게 간소화할 수 있습니다(그림 2).

Figure 2. The organization of three key propensity scoring tasks into two loosely coupled workflows

백오피스 팀은 주로 매일 예약되는 워크플로우의 첫 번째 단계에서 기능 및 평가 재계산에 집중합니다. 활성 제품 그룹에 대한 정보를 검색하여 재계산이 필요한 기능을 제어하고, 해당 값을 데이터브릭스 피처 스토어 (feature store)에 기록합니다.

피처 스토어는 데이터브릭스 플랫폼의 특수 기능으로, 이전에 학습된 모델이 모델 추론 시 최소한의 입력만으로 의존하는 피처를 검색할 수 있게 합니다. 성향 평가의 경우, 점수를 매기려는 고객 및 제품 그룹의 식별자만 제공하면 모델이 피처 스토어를 활용하여 필요한 특정 값 검색 후 예측 결과를 반환합니다.

두 번째 워크플로는 주 단위 또는 그 이상으로 예약되며, 데이터 사이언스 팀은 주기적으로 각 모델을 재학습하기 위해 이 워크플로를 사용합니다. 새로 학습된 모델은 사전 구축된 MLflow 레지스트리에 등록되어, 데이터브릭스 환경에서 각 모델의 여러 버전을 추적할 수 있게 됩니다. 새로 학습된 모델은 내부 프로세스를 통해 테스트와 평가가 가능하며, 완전히 검증되고 프로덕션 준비가 완료될 때까지 평가 워크플로우에 노출되지 않고 안정적으로 테스트하고 평가할 수 있습니다. 이 상태가 설정되면 첫 번째 워크플로에서는 해당 모델을 현재 활성 모델로 간주하고, 다음 주기의 모델 채점에 사용합니다.

각 워크플로는 상호 의존하지만 서로 다른 주기로 작동합니다. 피처 생성 및 평가 워크플로는 일반적으로 조직의 요구에 따라 매일 또는 때로는 매주 수행됩니다. 모델 재학습 워크플로는 이보다 훨씬 적은 주기로 주 단위, 월 단위 또는 분기 단위로 진행됩니다. 이 두 가지 작업을 조율하기 위해 조직은 데이터브릭스에서 기본으로 제공되는 워크플로 기능을 활용할 수 있습니다.

데이터브릭스 워크플로는 단순한 프로세스 스케줄링 이상의 기능을 제공합니다. 워크플로를 구성하는 다양한 작업을 정의할 수 있을 뿐만 아니라, 실행에 필요한 특정 리소스도 정의할 있습니다. 모니터링 및 알림 기능은 백그라운드에서 이러한 프로세스를 관리하는 데 도움이 되며, 상태 관리 기능은 문제 해결과 작업 실패 시 다시 시작할 수 있도록 지원합니다.

성향 평가 작업은 데이터브릭스의 기능 스토어, 워크플로우 통합 MLflow 모델 레지스트리를 활용하여 서로 밀접하게 관련된 두 가지 작업 스트림으로 접근하면 복잡성을 크게 줄일 수 있습니다. 이러한 워크플로가 어떻게 실제로 작동하는지 알아보고 싶으시다면, 실제 데이터 세트에 적용된 성향 평가 솔루션 액셀러레이터를 확인해보세요. 이 리소스는 구성 가능한 제품 세트를 등록하여 여러 가지 성향 점수 모델을 개발하고, 이를 사용하여 다양한 마케팅 플랫폼에서 최신 점수에 액세스하는 방법을 안내합니다. 이 리소스는 리테일 조직이 초기 개인화 노력을 발전시키는 지속 가능한 성향 평가 프로세스를 정의하는 데 도움이 될 것입니다.

성향 평가 솔루션 액셀러레이터 다운로드

데이터브릭스로 복잡한 성향 평가 (Propensity Scoring) 시나리오 관리하기

수많은 중복 모델 관리로 인한 복잡성 발생

이러한 복잡성은 세 가지 작업을 통해 해결할 수 있습니다.

데이터브릭스는 이러한 작업을 조정하는 데 도움을 드립니다.

최신 게시물을 이메일로 받아보세요

Sign up