2026년 3월 25일

데이터 기반 실험 분석 프레임워크 구축 사례: Databricks 모바일 게임 A/B 테스트 자동화

HARDlight가 자동화된 통계 모델링, 거버넌스된 인사이트, 일일 새로고침 대시보드 및 LLM 생성 요약을 통해 실험 분석을 확장한 방법.

작성자: Sanjay Ashok, Jack Holdsworth, Tingting Wan, Joel Dias, Richard Carr , Monika Kolodziejczyk

데이터에서 의사결정까지: Sega HARDlight가 표준화된 실험 수집, 통계 모델링, 결과 게시를 통해 Databricks에서 A/B 테스트 분석을 자동화하여 수동 워크플로우를 줄이고 추가 인력 없이 월간 실험 역량을 2배로 늘렸습니다.
모든 사용자를 위한 인사이트: LLM 요약 기능이 추가된 일일 새로고침 모니터링과 점진적으로 세분화된 지표, 진단, 권장 조치를 통해 조직 전체에서 실행 가능한 인사이트에 대한 접근성을 높입니다.
투명성을 통한 신뢰: 일관된 통계적 추론과 접근 가능한 AI/BI 보기를 통해 팀이 결과를 이해하고 자신감을 구축하며 실험에 대한 공유된 과학적 접근 방식을 채택하도록 도왔습니다.

소개

모바일 게임 스튜디오는 게임 플레이, 수익화 및 라이브 운영을 개선하기 위해 지속적인 실험에 의존합니다. 실험이 확장됨에 따라 분석이 종종 제한 요소가 됩니다. 결과는 종종 수동으로 취합되고, 통계적 접근 방식은 분석가마다 다르며, 주요 신호가 나타난 지 며칠 후에 인사이트가 도착합니다. 시간이 지남에 따라 이는 반복 속도 저하, 일관성 없는 결론, A/B 테스트에 대한 신뢰도 하락과 같은 마찰을 발생시킵니다.

과제

HARDlight의 과제는 속도뿐만 아니라 신뢰였습니다. 서로 다른 접근 방식은 서로 다른 해석으로 이어져 조정이 더 어려워지고 과학적 의사 결정 도구로서의 실험에 대한 신뢰가 약화되었습니다. 일부 이해 관계자는 간단한 일일 상태를 원했고, 다른 이해 관계자는 플레이어 행동 또는 비즈니스 영향을 이해하고 싶어했으며, 소규모 그룹은 특정 게임 레버에 대한 심층 검증을 요구했습니다. 기존 대시보드와 보고서는 이러한 모든 요구 사항을 효과적으로 충족하는 데 어려움을 겪었습니다. 실험을 확장하려면 HARDlight는 추론을 표준화하고, 다양한 수준의 깊이로 결과에 접근할 수 있도록 하고, A/B 테스트를 공유된 과학적 의사 결정 프로세스로 다시 구축할 방법을 찾아야 했습니다.

이를 해결하기 위해 HARDlight는 데이터 기반 실험 분석 프레임워크로 Databricks를 선택했습니다. 실험 데이터에서 의사결정 준비 인사이트까지의 경로를 자동화하는 Databricks 기반 A/B 테스트 분석 프레임워크를 구축했으며, 통계 분석은 반복 가능하고 투명한 방식으로 업스트림에서 수행되었습니다. Databricks AI/BI는 LLM 생성 요약으로 시작하여 점진적으로 세분화된 보기를 통해 더 깊은 탐색을 허용하는 일일 새로고침 환경을 통해 결과를 노출했습니다. 각 실험이 끝나면 결과가 고정되어 테스트가 완료된 후에도 의사 결정, 컨텍스트 및 학습 내용을 사용할 수 있도록 보장했습니다.

솔루션: Databricks에서의 자동화된 A/B 테스트

HARDlight의 프레임워크는 수집부터 의사 결정 지원까지 실험을 자동화합니다. Databricks 내에서 실험 정의 및 원격 측정은 표준화되고, 통계 모델링은 일관되게 적용되며, 결과는 일일 새로고침되는 계층형 대시보드에 게시됩니다. 상단의 LLM 요약은 접근 가능한 실험 상태 보기를 제공하며, 더 깊은 섹션은 전문가 사용자를 위한 KPI, 진단 및 권장 조치를 노출합니다.

Databricks를 선택하면 팀 전체에서 거버넌스와 반복 가능성을 확보할 수 있습니다. Unity Catalog는 실험 자산의 권한 및 계보에 대한 단일 제어 평면을 제공합니다. Spark Declarative Pipelines는 실험 수집 및 변환을 위한 안정적인 파이프라인을 오케스트레이션합니다. MLflow는 반복 가능한 분석을 위한 실험 추적 및 모델 패키징을 지원합니다. 이러한 기능은 함께 Lakehouse에서 데이터와 분석을 거버넌스되고 일관되며 운영하기 쉽게 유지합니다.

주요 혁신은 실행 종료 시의 “고정 대시보드”입니다. 다음 새로고침으로 이어지는 대신, 프레임워크는 최종 스냅샷과 결정된 사항, 권장 조치를 보존합니다. 이는 과거 실험의 학습 내용을 제도화하고 이해 관계자가 모호함 없이 결과를 다시 검토할 수 있도록 합니다.

기술 아키텍처

실험 프레임워크는 데이터 처리, 통계 추론 및 소비를 분리하는 Databricks 기반 시스템으로 구축되었으며, 모든 출력은 기본적으로 거버넌스되고 반복 가능하게 유지됩니다. 이 설계는 운영 오버헤드를 늘리거나 팀 간의 해석을 파편화하지 않고 분석적 엄격성을 확장하도록 보장합니다.

Databricks Data Intelligence Platform 기반 모바일 게임 A/B 테스트 분석 아키텍처 —
게임 이벤트 텔레메트리, UA 마케팅, 레거시 분석 데이터를 Autoloader와 Lakeflow Connect로
수집하고(①), Lakeflow Spark Declarative Pipelines로 Bronze, Silver, Gold 메달리온
스키마에 변환 및 저장하며(②), Mosaic AI의 통계 모델링 노트북, MLflow, LLM 요약으로
실험을 분��석하고(③), Lakeflow Jobs로 모델 실행을 오케스트레이션하며(④),
Databricks SQL로 플레이어 행동, A/B 테스트, 실험 성과를 BI 대시보드로 제공하고(⑤),
AI/BI와 Genie 자연어 인터페이스로 셀프 서비스 분석을 지원하는(⑥)
엔드투엔드 데이터 파이프라인

데이터 수집 및 모델링

실험 정의, 플레이어 원격 측정 및 결과 지표는 내부 파이프라인에서 수집되어 일관된 스키마를 가진 거버넌스 테이블로 큐레이션됩니다. 이러한 표준화를 통해 분석가와 제품 팀은 테스트 설계 또는 기간에 관계없이 실험에 대해 일관되게 추론할 수 있습니다. 노트북은 시간 경과에 따른 효과 추정치, 불확실성 및 세그먼트 수준 영향을 계산하는 통계 모델을 컴퓨팅하는 데 사용됩니다. 모든 분석 출력은 대시보드나 보고서에 로직을 포함하는 대신 통합 실험 분석 모델로 구체화됩니다. 이는 다운스트림 소비자가 분석을 다시 실행하거나 결과를 재해석할 필요 없이 신뢰할 수 있는 안정적인 의미 계층을 생성합니다.

AI/BI 기반 인사이트 제공

이 거버넌스 분석 계층 위에 Databricks AI/BI는 실험 결과 소비를 위한 접근 가능한 인터페이스를 제공합니다. 매일 새로고침될 때마다 비기술적 이해 관계자를 대상으로 하는 간결한 LLM 요약이 생성되어 검증된 통계 출력을 자연어로 번역합니다. 대시보드는 점진적 공개를 사용합니다. 사용자는 만족하면 요약에서 멈추거나, 호기심이 증가함에 따라 메트릭, 진단 및 세그먼트 분석의 더 깊은 계층을 탐색할 수 있습니다. 이 계층화된 경험은 분석 깊이를 전문가 검증을 위해 사용할 수 있도록 하면서 빠른 스캔을 가능하게 합니다.

AI/BI-powered Insight Delivery

실험 수명 주기 및 지속성

라이브 단계 동안 대시보드는 매일 새로고침되어 팀이 추세를 추적하고 신호에 대응할 수 있습니다. 종료 시 대시보드는 결과를 보존하기 위해 고정되며, 결정 및 권장 조치가 이루어집니다. 이 수명 주기는 온보딩을 가속화하고 향후 실험에서 중복 분석을 줄이는 감사 가능한 기록을 생성합니다.

대시보드 계층 설명

대시보드는 명확하고 의도적인 순서로 실험 결과에 대한 사용자를 안내하도록 설계되었습니다. 단순함으로 시작하여 더 자세히 탐색하려는 사람들을 위해 점진적으로 더 많은 세부 정보를 공개합니다. 각 섹션은 다른 질문을 다루며, 독자가 필요한 정보를 얻으면 중단해도 괜찮습니다.

LLM 생성 실험 요약: 대시보드 상단에는 LLM 생성 요약이 있습니다. 실험이 진행 중일 때, 이는 조기 신호를 강조하면서 섣부른 결론을 내리지 않고 상황이 어떻게 진행되고 있는지에 대한 간단하고 높은 수준의 보기를 제공합니다.

실험이 종료되면 요약의 역할이 변경됩니다. 이는 무엇이 일어났는지에 대한 명확한 설명이 되며, 높은 신뢰도로 움직인 메트릭을 우선 순위별로, 그리고 쉬운 언어로 설명합니다. 목표는 팀이 결과를 신속하게 이해하고 그 중요성을 파악하도록 돕는 것입니다.

확인된 결과 및 통계적 영향: 더 기술적인 청중을 위해 다음 섹션에서는 통계적으로 유의미한 결과의 구조화된 보기를 제공합니다. 플레이어 평생 가치(LTV) 및 유지율과 같은 주요 메트릭은 효과 크기 및 신뢰 수준과 함께 나열되어 원시 분석을 자세히 살펴보지 않고도 결론을 쉽게 검증할 수 있습니다.

예상 평생 가치 영향: 대시보드는 제어 그룹 및 변형 그룹에 대한 플레이어 평생 가치에 대한 예상 영향을 보여줍니다. 불확실성과 오차 범위가 명시적으로 표시되어 이러한 정보에 입각한 추정치이지 절대 예측이 아님을 강조합니다.

수익원별 수익 영향: 결과는 광고, 인앱 구매 및 총 수익을 포함한 수익 스트림별로 분류됩니다. 이를 통해 팀은 변경 사항이 광범위한지 특정 수익화 채널에서 비롯된 것인지 이해하는 데 도움이 됩니다.

플레이어 참여 및 행동: 수익 외에도 유지율 및 세션 행동과 같은 참여 메트릭이 노출되어 비즈니스 이익이 플레이어 경험 및 장기적인 건강과 함께 고려되도록 합니다.

세그먼트 수준 분석: 세분화는 HARDlight가 실험을 설계하고 평가하는 방식의 핵심입니다. 이 섹션에서는 유지율, 진행률 또는 기타 행동 특성으로 정의된 다양한 플레이어 세그먼트가 변경 사항에 어떻게 반응하는지 보여줍니다. 이를 통해 팀은 대상 경험이 의도한 대로 작동하고 다른 플레이어 기반에 해를 끼치지 않음을 확인할 수 있습니다.

수익화 메커니즘 및 게임 경제: 더 깊은 계층에서는 실험이 광고 성과(게재 위치별), 인앱 구매 성과(제품 카테고리별) 및 하드/소프트 통화 흐름의 변화(소스 및 싱크 전반)를 포함한 게임 내 시스템에 어떻게 영향을 미치는지 탐색합니다.

핵심 게임 플레이 루프 및 부록: 가장 깊은 수준에서는 상세한 차트와 테이블이 레이스, 캐릭터, 아이템과 같은 게임 플레이 메커니즘과 지원 통계 시각 자료를 다룹니다. 이 계층은 완전한 투명성을 원하거나 향후 작업에서 인사이트를 재사용해야 하는 전문가 사용자를 위한 것입니다.

이러한 계층들은 함께 인사이트가 자연스럽게 펼쳐지도록 합니다. 팀은 답이 명확할 때 신속하게 이동하거나 질문이 발생할 때 더 깊이 들어갈 수 있으며, 모두 동일한 거버넌스되고 신뢰할 수 있는 데이터 소스에서 작업합니다.

이 구조는 Databricks AI/BI 덕분에 가능해졌습니다. 이를 통해 복잡한 분석 출력을 사용자 지정 코드나 분석가 전용 워크플로를 대시보드에 포함하지 않고도 깔끔하게 노출할 수 있습니다. 통계 결과, 예측 및 세그먼트 수준 분석은 노트북에서 업스트림으로 계산되어 거버넌스 테이블로 구체화되며, AI/BI는 그 위에 유연한 프레젠테이션 계층을 제공합니다. 이를 통해 대시보드 내에서 Python을 실행할 필요가 없어지며 유지 관리가 단순화되고 적은 인원으로도 시스템을 반복하고 발전시킬 수 있습니다.

더 중요한 것은 AI/BI를 통해 동일한 기본 데이터에서 매우 다른 잠재 고객에게 서비스를 제공할 수 있다는 것입니다. 내러티브 요약, 테이블 형식 결과, 차트 및 심층 진단은 로직을 복제하거나 해석을 파편화하지 않고 공존할 수 있습니다. 이는 분석 깊이, 접근성 및 지속 가능성 간의 절충을 강요했던 도구 제약으로 인해 이전 접근 방식에서 중요한 전환점이었습니다.

성과 및 결과

이 프레임워크는 HARDlight에서 실험이 운영되는 방식을 근본적으로 변화시켰습니다. 분석을 자동화하고 통계적 추론을 표준화함으로써 데이터 팀은 주당 8시간 이상의 수동 작업을 줄였습니다. Databricks Workflows를 사용하여 실험 실행을 표준화함으로써 팀은 각 분석에 대해 이전에 필요했던 수동 설정 작업을 많이 제거했습니다. 이를 통해 실험당 약 하루를 절약하고 인력 증원 없이 월간 A/B 테스트 용량을 2배로 늘릴 수 있었습니다.

수동 실험 분석 워크플로:

Databricks에서의 자동화된 실험 인사이트 제공:

Automated Experiment Insight Delivery on Databricks

효율성 향상 외에도 이 시스템은 결과의 일관성과 신뢰도를 높였습니다. 이제 고정된 대시보드 아카이브는 완료된 실험에 대한 신뢰할 수 있는 정보 소스로 사용되어 반복적인 분석을 줄이고 팀이 과거 결정에 전체 맥락을 가지고 쉽게 다시 방문할 수 있도록 합니다. 이를 통해 팀 간의 과거 지식 유지에 드는 오버헤드가 크게 줄었습니다.

무엇보다도 이 프레임워크는 스튜디오 전반에서 인사이트가 소비되는 방식을 변화시켰습니다. 여러 실험이 병렬로 실행됨에 따라 팀은 이제 다일간의 수동 집계 및 해석을 대체하는 일일 AI/BI 기반 업데이트를 받습니다. Genie는 대시보드에서 직접 활성화되어 사용자가 보고 있는 내용에 대해 질문하고 기본 데이터 모델을 이해할 필요 없이 자신의 말로 결과를 탐색할 수 있게 해줍니다. 요약하자면, 명확한 요약, 거버넌스된 메트릭, 투명한 통계 출력 및 대화형 액세스가 제품, LiveOps 및 엔지니어링 팀 간의 신뢰를 구축하는 데 도움이 되었으며, 실험을 공유된 과학적 작업 방식으로 강화했습니다.

다음 단계

HARDlight는 예측 애플리케이션으로 프레임워크를 확장하여 프레임워크를 기술 및 추론 분석에서 미래 예측 지침으로 확장할 계획입니다. 더 넓은 비전은 예측 실험 및 폐쇄 루프 최적화입니다. Lakehouse를 사용하여 가설에서 배포까지의 주기를 더 많이 자동화하는 동시에 Unity Catalog, Spark Declarative Pipelines 및 MLflow를 사용하여 거버넌스 및 일관성을 유지하는 것입니다. 이 대시보드 우선 접근 방식은 거버넌스된 메트릭 및 진단 위에 LLM 요약을 계층화하여 Databricks에서 자신 있게 실험을 확장함으로써 유사한 요구 사항을 가진 다른 스튜디오에 상당한 영향을 미칠 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)