주요 컨텐츠로 이동

외부 데이터로 미래를 내다보는 인텔리전스 구축하기

build-fwd-look-intel-og

Published: June 24, 2025

데이터 엔지니어링1분 이내 소요

이 글은 Foursquare 데이터 팀과의 협업으로 작성되었습니다. 이 글의 공동 저자인 Foursquare의 데이터 엔지니어링 및 지리 공간 분석 전문 세일즈 엔지니어 하비에르 솔리즈(Javier Soliz)에게 감사의 말씀을 전합니다.

 “서로 얽힌 글로벌 경제에서는 트리거 사건 (trigger event) 하나가 연쇄 반응을 일으킬 수 있다”고 보스턴 컨설팅 그룹(BCG)은 2020년 초 코로나 팬데믹이 시작될 무렵 언급했습니다. 2021년 초 몇 달 동안만 해도, 호주 서부의 산불, 텍사스의 혹한으로 인한 대규모 정전, 일본 해안에서의 강진, 호주 동부와 하와이의 홍수 및 대피, 미국 대선 관련 정치적 불안, 유럽과 아시아를 잇는 주요 해상 항로가 선박 한 척으로 인해 마비되는 사건 등이 발생했습니다. 이 모든 일은 팬데믹으로 촉발된 글로벌 경기 침체에서 세계가 회복을 시도하는 가운데 일어난 일입니다. 트리거 사건이 넘쳐나는 지금, 조직들은 회복탄력성 확보에 막대한 투자를 하고 있습니다.

회복탄력성은 흔히 혼란 이후의 정상화로 이해되지만, 팬데믹이 보여준 바와 같이 이전의 ‘정상’이 이후에도 그대로 유지된다는 보장은 없습니다. 소비자 이동성과 지출 패턴에 엄청난 변화가 있었습니다. 화장지 부족 공포가 가라앉은 이후 오트 밀크와 트레이닝 팬츠가 필수품이 되었습니다. 온라인 구매, 배달, 픽업 서비스를 제공할 수 있었던 기업은 큰 성장을 했고, 그렇지 못한 기업은 시장 점유율을 잃었습니다. 팬데믹 이후에도 소비자 지출 패턴은 더욱 변화할 것으로 보입니다.

기업에게 있어 핵심은, 내부 운영을 위협하는 불확실성이 소비자에게도 영향을 준다는 점입니다. 회복탄력성을 원하는 조직은 내부 성과 관리뿐 아니라 자사가 속한 시장에 대한 외부적인 관점도 필요합니다.

미래 지향적인 인텔리전스 구축

텍사스의 식료품 체인점 HEB는 내부 성과 관리와 외부 리스크 감지를 균형 있게 수행한 좋은 사례입니다. HEB는 조직의 취약성을 분석하고, 미래의 다양한 시나리오를 고려해 주요 리스크를 사전에 식별할 수 있었습니다. 코로나19 위기가 시작되자 HEB는 공급망의 핵심 지역에서의 교란 가능성을 인지하고, 영향을 받을 수 있는 필수품을 사전 비축하기 시작했습니다.

팬데믹 자체가 HEB가 구체적으로 식별한 위협은 아니었지만, 그들의 리스크 평가는 어떤 종류의 신호를 어디서 찾아야 할지를 알려주었습니다. 이러한 신호는 내부 데이터에서는 위협이 이미 도래한 후에야 나타날 수 있었기 때문에, HEB는 외부 정보를 활용하여 조기 경고 시스템을 갖추고자 했습니다. 초기 대응에 성공한 덕분에 HEB는 2020년 GroceryDive에서 올해의 식료품점으로 선정되었습니다.

외부 데이터 활용

조직이 외부의 시각을 확보해야 한다는 인식이 확산됨에 따라 외부 데이터에 대한 관심이 급증하고 있습니다. 포레스터의 최근 조사에 따르면, 70%의 조직이 외부 데이터 자산을 이미 확보했거나 확보 중이며, 17%는 향후 1년 이내에 확보할 예정이라고 응답했습니다. 이에 따라 날씨 데이터와 같은 다양한 정보를 제공하는 데이터 공급자, 집계업체, 마켓플레이스가 증가하고 있습니다.

Commonly used external data from a report by McKinsey & Company

Figure 1. Commonly used external data from a report by McKinsey & Company

이러한 외부 데이터를 효과적으로 활용하려면 몇 가지 고려 사항이 필요합니다:

외부 데이터를 확보하기 전에, 조직이 해당 데이터로부터 얻고자 하는 인사이트가 무엇인지 신중히 고려해야 합니다. 데이터와 관련된 약관을 면밀히 검토하고, 데이터의 수집 방식 및 귀사가 이를 사용할 경우 고객이 어떻게 반응할지를 미리 파악하면 잠재적인 문제를 피할 수 있습니다.

사용이 승인되었다면, 데이터가 어떻게 수집되고 배포용으로 가공되었는지, 얼마나 오래된 데이터가 제공되는지, 그리고 조직의 목적에 적합한지를 이해하는 것이 중요합니다. 대부분의 데이터 제공업체는 이러한 목적을 위해 문서와 샘플을 함께 제공합니다.

외부 데이터 소스를 활용할 때의 기술적 과제도 고려해야 합니다. 방대한 이력 데이터와 주기적인 업데이트, 업데이트 주기, 데이터가 제공되는 방식은 모두 핵심적인 고려사항입니다. 또한 외부에서 수집된 데이터를 조직 내에서 생성한 데이터와 어떻게 일치시킬지도 검토해야 합니다. 시간적/공간적 해상도의 차이, 또는 중복된 차원을 표현하는 방식의 차이 등으로 인해 데이터를 분석에 사용할 수 있도록 상당한 가공이 필요할 수 있습니다. 많은 조직에서 외부 데이터를 통합하는 물리적·논리적 과제 때문에, 기존의 운영 정보 분석을 위한 전통적인 데이터 웨어하우스 방식보다 유연하고 비용 효율적인 새로운 데이터 관리 접근법의 도입이 필요합니다.

데이터가 지속적으로 가치를 창출할 수 있도록 보장해야 합니다. 문서화, 교육 및 사내 전파 활동, 지속적인 활용도 모니터링을 통해 데이터의 활용 가치를 극대화할 수 있습니다. 많은 대형 데이터 제공업체는 고객이 이를 잘 활용할 수 있도록 가이드와 모범 사례를 제공하기도 합니다. 외부 데이터를 효과적으로 활용하기 위한 이러한 제안과 기타 다양한 방법들은 맥킨지와 포레스터에서 발표한 가이드에서 확인할 수 있습니다.

Foursquare 데이터를 통한 발길 수 분석

외부 데이터가 어떻게 활용될 수 있는지를 더 깊이 탐구하기 위해, 우리는 위치 기술 및 데이터의 선도 기업인 Foursquare와 협력하여 미국 내 타코 가게에 대한 COVID의 영향을 분석했습니다.

왜 타코 가게일까요? 대부분의 퀵 서비스 레스토랑처럼, 이러한 업소는 발길 수(foot traffic)에 크게 의존하며, 이는 팬데믹 동안 소비자 참여의 핵심 요소로서 큰 타격을 받았습니다. 또한, 타코 가게는 대체로 소규모 독립 업장으로, 일부 지역 보도에 따르면 팬데믹에 보다 유연하게 대응할 수 있는 특징이 있습니다. 마지막으로, 이 분석은 Foursquare 데이터셋에 포함된 다양한 업종에 적용 가능하지만, 본 분석의 공동 저자 중 두 명이 타코가 지역적으로 사랑받는 텍사스 출신이라는 점도 고려되었습니다.

우리는 Foursquare의 Pilgrim SDK를 통해 수집되고, Places 및 Visits 데이터베이스를 통해 제공되는 발길 수 데이터를 활용하여, 미국 전역의 다양한 지역에 있는 타코 가게에 대한 고객 방문율을 분석했습니다. 또한, 미국 인구조사국의 인구 추정치를 활용하여 각 지역에서 해당 업소가 가지는 중요성을 명확히 파악할 수 있었습니다.

Visits to taquerias relative to population size, logarithmically scaled, for the years 2017 through 2020

Figure 2. 2017년부터 2020년까지 인구 수 대비 타코 가게 방문 횟수 (로그 스케일)

각 업장의 지점 위치를 미국 인구조사국에서 제공하는 카운티 단위 지표와 일치시키기 위해, 우리는 Uber의 H3 그리드 시스템을 활용했습니다. 이 시스템은 지리적 위치를 다양한 해상도의 육각형 격자로 매핑해주며, 이를 통해 카운티별 코로나 확진자 수와 같은 추가 데이터셋을 손쉽게 오버레이할 수 있었습니다.

분석 결과, 지난 몇 년 동안 타코 가게의 수는 꾸준히 증가했지만, 가게당 고객 방문 수는 코로나 팬데믹 이전부터 감소해왔습니다. 대부분의 타코 가게는 독립 업장이지만, 전체 방문량의 상당수는 프랜차이즈 가게가 차지하고 있었습니다.

Per location customer visits for independent vs. chain taquerias

Figure 4. 독립 타코 가게 vs. 프랜차이즈 타코 가게의 매장당 고객 방문 수

2020년 초 코로나19가 발생하면서 방문 수가 급격히 감소했고, 5월부터는 예년 수준의 약 75% 수준으로 고객 방문이 회복되었습니다.

Impact of COVID on store visitations

Figure 5. 코로나19가 매장 방문에 미친 영향

연도별 변화를 살펴보면, 초기 방문 감소 이후 독립 업장이 프랜차이즈보다 더 빠르게 회복된 것으로 나타났습니다. 다른 보고서들에서도 언급된 바와 같이, 소규모 독립 매장의 민첩성이 이러한 빠른 회복의 이유 중 하나일 수 있습니다. ‘지역 상점 이용(Shop Local)’ 캠페인도 고객이 대형 프랜차이즈보다 동네 가게를 선호하게 만드는 데 기여했을 가능성이 있습니다. 또한, 팬데믹 이전부터 독립 매장이 프랜차이즈보다 연도별 방문 수에서 더 나은 성과를 보였다는 점은 이러한 추세가 코로나 이전부터 존재했음을 시사합니다.

Year-over-year changes in shop visits for independent vs. chain restaurants

Figure 6. 독립 매장 vs. 프랜차이즈 매장의 연도별 방문 수 변화

이는 프랜차이즈에 밀려 점유율을 잃어가던 소규모 업장들에게는 긍정적인 소식입니다. 앞으로 방문 수가 전반적으로 개선될 것으로 예측되며, 이는 독립 업장과 프랜차이즈 모두에게 좋은 소식이 될 것입니다. 단, 이러한 예측은 코로나 확진자 수에 대한 신뢰 가능한 전망을 전제로 하며, 이는 지금까지 공중 보건 전문가들조차도 정확히 예측하지 못했던 영역입니다. 우리는 분석을 통해 제한된 기간에 대해 합리적인 예측을 시도했지만, 결국 예측의 신뢰 가능 범위는 2~3개월이라는 결론에 도달했습니다. 즉, 앞으로도 여전히 불확실한 요소가 많으며, 회복에 대한 희망이 있긴 하지만 새로운 정보가 나올 때마다 이 시나리오는 재검토될 필요가 있습니다. 우리는 다른 퀵서비스 레스토랑(QSR) 및 소매업체들과의 경험을 바탕으로, 이와 같은 주의사항이 업계 전반에 적용된다고 믿고 있습니다.

Historical and forecasted store visits for subset of regions for which forecasts could be made

Figure 7. 예측 가능했던 일부 지역에 대한 매장 방문 수의 이력 및 예측값

데이터셋을 공간적으로 정렬하기 위해 수행한 데이터 준비 작업을 포함한 보다 자세한 분석은 아래의 노트북을 통해 확인하실 수 있습니다:

Databricks와 Foursquare는 팬데믹의 불확실성을 헤쳐 나가고 있는 모든 지역 음식점 경영자와 직원분들에게 깊은 응원의 메시지를 전합니다. 로컬 음식점을 지속적으로 응원하고 이용해주시길 바랍니다.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?