주요 컨텐츠로 이동

Databricks에서 대규모로 공급망 네트워크에 스트레스 테스트하기

디지털 트윈 모델과 고급 위험 분석을 활용한 공급망 복원력 강화

Summary

  • 최근의 글로벌 무역 중단은 공급망의 취약성을 강조하며, 회사들이 그들의 운영을 재고하게 만듭니다. 디지털 트윈, 즉 공급망 네트워크의 그래프 기반 모델을 사용하면 기업들이 중단 시나리오를 시뮬레이션하고 가장 큰 재정적 영향을 미칠 수 있는 고위험 노드를 식별할 수 있습니다.
  • 복구 시간(TTR)과 생존 시간(TTS) 지표를 활용하여, 기업들은 공급망의 복원력을 평가할 수 있습니다. 이를 통해 위험 관리에 대한 더 적극적인 접근 방식을 채택할 수 있게 되어, 높은 영향력을 가진 노드를 식별하여 더 나은 투자 결정을 내릴 수 있으며, 동시에 저위험 영역에 대한 과투자를 최소화할 수 있습니다.
  • Databricks는 대규모 시뮬레이션을 실행하기 위한 확장성, 계산력, 오픈 소스 도구와의 통합을 제공합니다. 이로 인해, 기업들은 방해 시나리오를 분석하고, 이익 마진을 보존하고 비용을 줄이기 위해 투자를 조정함으로써 공급망 복원력을 구축하고 최적화하는 이상적인 플랫폼을 만들 수 있습니다.

소개

최근의 무역 전쟁에서, 정부들은 보복적인 관세, 할당량, 수출 금지를 통해 상업을 무기화하였습니다. 이러한 충격파는 공급망 전체에 파급되어, 기업들이 원천을 재배치하고, 생산을 재국내화하며, 중요한 입력 요소를 비축하도록 강요하였습니다. 이러한 조치들은 리드 타임을 연장시키고, 한때 늘씬하고 즉시 공급 가능했던 운영을 침식시켰습니다. 각각의 우회로는 비용을 수반합니다: 상승하는 입력 가격, 증가하는 물류 비용, 그리고 유동 자본을 묶는 과다한 재고. 결과적으로, 이익 마진이 줄어들고, 현금 흐름의 변동성이 증가하며, 잔액표 위험이 심화됩니다.

무역 전쟁은 세계적인 공급망을 놀라게 한 일회성 사건이었을까요? 그 세부사항에서는 그럴 수 있지만, 그 방해의 규모는 전혀 전례 없는 것이 아니었습니다. 단지 몇 년 동안, 코로나19 팬데믹, 2021년 스에즈 운하 차단, 그리고 계속되는 러시아-우크라이나 전쟁이 각각 큰 충격을 주었으며, 이들은 대략 1년 간격으로 발생하였습니다. 이러한 사건들은 예측하기 어려웠지만, 세계적인 공급망에 상당한 방해를 초래하였습니다. 

이러한 방해적인 사건들에 대비하기 위해 어떤 조치를 취할 수 있을까요? 마지막 순간의 변화에 대해 공황에 빠지는 대신, 기업들이 정보를 바탕으로 결정을 내리고 위기가 펼쳐지기 전에 미리 조치를 취할 수 있을까요? MIT의 교수인 David Simchi-Levi의 논문은 이 도전에 대한 설득력 있는, 데이터 기반 접근법을 제시합니다. 그의 방법의 핵심은 디지털 트윈의 생성입니다. 이는 그래프 기반 모델로, 노드는 공급망의 사이트와 시설을 나타내고, 에지는 그들 사이의 물자 흐름을 나타냅니다. 그런 다음 다양한 방해 시나리오가 네트워크에 적용되고, 그 반응이 측정됩니다. 이 과정을 통해, 기업들은 잠재적인 영향을 평가하고, 숨겨진 취약점을 발견하고, 중복된 투자를 식별할 수 있습니다.

이 과정은 스트레스 테스팅이라고 알려져 있으며, 다양한 산업에서 널리 채택되었습니다. 포드 모터 컴퍼니는 예를 들어, 이 방법론을 4,400개가 넘는 직접 공급 업체 사이트, 수십만 개의 하위 공급 업체, 50개 이상의 포드 소유 시설, 130,000개의 독특한 부품, 그리고 연간 800억 달러 이상의 외부 조달에 걸쳐 적용하였습니다. 그들의 분석 결과, 공급 업체 사이트의 약 61%가 중단되더라도 이익에는 영향을 미치지 않을 것이며, 약 2%는 큰 영향을 미칠 것이라는 것을 밝혀냈습니다. 이러한 통찰력은 그들의 공급망 위험 관리에 대한 접근 방식을 근본적으로 변화시켰습니다.

이 블로그 게시물의 나머지 부분은 이러한 솔루션을 구현하고 Databricks에서 종합적인 분석을 수행하는 방법에 대한 고수준 개요를 제공합니다. 지원하는 노트북은 오픈 소스로 제공되며 여기에서 이용할 수 있습니다.

Databricks에서 공급망 네트워크 스트레스 테스트하기

글로벌 소매업체 또는 소비재 회사에서 일하고 있으며 공급망의 탄력성을 향상시키는 작업을 맡게 된 상황을 상상해 보세요. 이는 특히 우리의 공급망 네트워크가 미래의 파괴적인 사건 동안 고객의 수요를 최대한 충족시킬 수 있도록 보장하는 것을 의미합니다. 이를 달성하기 위해, 네트워크 내에서 실패하면 과도한 피해를 입힐 수 있는 취약한 사이트와 시설을 식별하고 관련 위험을 완화하기 위해 우리의 투자를 재평가해야 합니다. 고위험 위치를 식별함으로써 저위험 위치도 인식할 수 있습니다. 우리가 과도하게 투자하고 있는 영역을 발견하면, 그 자원을 위험 노출을 균형잡기 위해 재배치하거나 불필요한 비용을 줄일 수 있습니다.

우리의 목표를 달성하기 위한 첫 번째 단계는 우리의 공급망 네트워크의 디지털 트윈을 구축하는 것입니다. 이 모델에서, 공급업체 사이트, 생산 시설, 창고, 그리고 배송 센터는 그래프의 노드로 표현될 수 있으며, 그들 사이의 에지는 네트워크 전체의 물자 흐름을 포착합니다. 이 모델을 만드는 데는 재고 수준, 생산 능력, 자재 목록, 그리고 제품 수요와 같은 운영 데이터가 필요합니다. 이 데이터를 이익이나 비용과 같은 주요 지표를 최적화하도록 설계된 선형 최적화 프로그램의 입력으로 사용함으로써, 우리는 주어진 목표에 대한 네트워크의 최적 구성을 결정할 수 있습니다. 이를 통해 각 하위 공급업체에서 얼마나 많은 재료를 구매해야 하는지, 어디로 운송해야 하는지, 그리고 어떻게 생산 사이트로 이동해야 하는지를 파악하여 선택된 지표를 최적화하는 공급망 최적화 접근법을 채택하고 있습니다. 이 접근법은 많은 조직에서 널리 사용되고 있습니다. 스트레스 테스트는 한 단계 더 나아가, 복구 시간(TTR)과 생존 시간(TTS) 개념을 도입합니다.

다단계 공급망 네트워크의 디지털 트윈 시각화. 
Visualization of the digital twin of a multi-tier supply chain network.

복구 시간 (TTR)

TTR은 네트워크의 주요 입력 중 하나입니다. 이는 노드 또는 노드 그룹이 중단 후 정상 상태로 복구하는 데 걸리는 시간을 나타냅니다. 예를 들어, 공급업체의 생산 사이트 중 하나가 화재로 인해 운영이 중단되면, TTR은 그 사이트가 이전 용량으로 공급을 재개하는 데 필요한 시간을 나타냅니다. TTR은 일반적으로 공급업체로부터 직접 얻거나 내부 평가를 통해 얻습니다.

TTR을 확보하면, 우리는 파괴적인 시나리오를 시뮬레이션하기 시작합니다. 이는 방해를 받은 노드나 노드 집합의 용량을 제거하거나 제한하고, 네트워크가 주어진 제약 조건 하에서 모든 제품에 대해 이익을 최대화하거나 비용을 최소화하기 위해 구성을 재최적화하도록 허용하는 것을 포함합니다. 그런 다음 우리는 이 새로운 구성하에서 운영하는데 발생하는 재정적 손실을 평가하고, TTR 기간 동안 누적 영향을 계산합니다. 이로써 특정 중단의 예상 영향을 얻을 수 있습니다. 우리는 이 과정을 Databricks의 분산 컴퓨팅 기능을 사용하여 수천 개의 시나리오에 대해 병렬로 반복합니다.

아래는 200개의 완제품을 생산하는 다계층 네트워크에서 수행된 분석 예시로, 재료는 500개의 1차 공급업체와 1000개의 2차 공급업체에서 조달되었습니다. 운영 데이터는 합리적인 제약 조건 내에서 무작위로 생성되었습니다. 파괴적인 시나리오의 경우, 각 공급업체 노드는 그래프에서 개별적으로 제거되고 무작위 TTR이 할당되었습니다. 아래의 산점도는 수직 축에 공급업체 사이트에 대한 위험 완화 투자 총액과 수평 축에 손실된 이익을 표시합니다. 이 시각화는 노드 실패의 잠재적 손해에 비해 위험 완화 투자가 부족한 영역(빨간 상자)과 위험에 비해 투자가 과도한 영역(녹색 상자)을 빠르게 식별하는 데 도움이 됩니다. 두 영역 모두 네트워크 복원력을 강화하거나 불필요한 비용을 줄이기 위해 우리의 투자 전략을 재검토하고 최적화할 기회를 제공합니다.

위험 완화 지출과 잠재적 이익 손실 분석, 과다 및 부족 투자 영역 표시 
Analysis of risk mitigation spend vs. potential profit loss, indicating areas of over- & under-investment 

생존 시간(TTS)

TTS는 노드 실패와 관련된 위험에 대한 또 다른 관점을 제공합니다. TTR과 달리, TTS는 입력이 아니라 출력입니다 - 결정 변수입니다. 중단이 발생하고 노드 또는 노드 그룹에 영향을 미치면, TTS는 재구성된 네트워크가 손실 없이 고객의 수요를 계속 충족할 수 있는 기간을 나타냅니다. TTR이 TTS보다 훨씬 길면 위험은 더욱 두드러집니다. 

아래는 동일한 네트워크에서 수행된 또 다른 분석입니다. 히스토그램은 각 노드의 TTR과 TTS 간 차이의 분포를 보여줍니다. 음의 TTR - TTS를 가진 노드는 일반적으로 문제가 되지 않습니다 - 제공된 TTR 값이 정확하다고 가정합니다. 그러나, 양의 TTR - TTS를 가진 노드는 특히 큰 차이를 가진 노드는 재정적 손실을 초래할 수 있습니다. 네트워크의 복원력을 향상시키기 위해, 우리는 공급업체와의 조건을 재협상하여 TTR을 재평가하고, 가능하다면 줄이고, 재고 버퍼를 만들어 TTS를 늘리거나, 소싱 전략을 다양화해야 합니다.

복구 시간(TTR)에 초점을 맞춘 노드 분석과 방해가 하류 손실을 초래할 때까지의 시간(TTS) 
Analysis of nodes focused on time to recover (TTR) relative to time until disruption incurs downstream losses (TTS) 

TTR과 TTS 분석을 결합함으로써, 우리는 공급망 네트워크의 탄력성에 대해 더 깊은 이해를 얻을 수 있습니다. 이 연습은 공급 결정을 안내하기 위해 연간 또는 분기별로 전략적으로 수행되거나, 네트워크 전체의 위험 수준이 변동하는 것을 모니터링하기 위해 주간 또는 일일 기준으로 더 전략적으로 수행될 수 있습니다. 이는 원활하고 반응성 있는 공급망 운영을 보장하는 데 도움이 됩니다.

가벼운 4노드 클러스터에서 위에서 설명한 네트워크(1,700 노드)에서 TTR 및 TTS 분석은 각각 5분과 40분 만에 완료되었으며, 이 모든 것이 $10 미만 의 클라우드 비용으로 이루어졌습니다. 이는 솔루션의 놀라운 속도와 비용 효율성을 강조합니다. 그러나 공급망의 복잡성과 비즈니스 요구사항이 증가함에 따라 - 변동성, 상호 의존성, 엣지 케이스의 증가 - 솔루션은 결과에 대한 신뢰를 유지하기 위해 더 큰 계산력과 더 많은 시뮬레이션을 필요로 할 수 있습니다.

Databricks를 사용하는 이유

모든 데이터 기반 솔루션은 입력 데이터 세트의 품질과 완전성에 의존하며, 스트레스 테스트도 예외가 아닙니다. 기업들은 공급업체와 하위 공급업체로부터 고품질의 운영 데이터를 필요로 합니다. 이에는 자재 목록, 재고, 생산 능력, 수요, TTR 등의 정보가 포함됩니다. 이 데이터를 수집하고 정리하는 것은 사소한 일이 아닙니다. 더욱이, 비즈니스의 독특한 측면을 반영하는 투명하고 유연한 스트레스 테스팅 프레임워크를 구축하는 것은 다양한 오픈 소스와 제3자 도구에 대한 접근권을 필요로 하며, 올바른 조합을 선택할 수 있는 능력을 필요로 합니다. 특히, 이에는 LP 솔버와 모델링 프레임워크가 포함됩니다. 마지막으로, 스트레스 테스팅의 효과는 고려된 방해 시나리오의 범위에 달려 있습니다. 이처럼 종합적인 시뮬레이션 세트를 실행하려면 대규모로 확장 가능한 컴퓨팅 리소스에 접근할 수 있어야 합니다.

Databricks는 이러한 유형의 솔루션을 구축하기에 이상적인 플랫폼입니다. 많은 이유 중 가장 중요한 것은 다음과 같습니다:

  1. Delta Sharing: 탄탄한 공급망 솔루션을 개발하기 위해서는 최신 운영 데이터에 접근하는 것이 필수적입니다. Delta Sharing 은 회사와 공급업체 간에 데이터를 원활하게 교환할 수 있는 강력한 기능으로, 한 쪽이 Databricks 플랫폼을 사용하지 않더라도 가능합니다. 데이터가 Databricks에 있으면, 비즈니스 분석가, 데이터 엔지니어, 데이터 과학자, 통계학자, 관리자 모두가 통합된 데이터 지능 플랫폼 내에서 솔루션에 대해 협업할 수 있습니다.
  2. Open Standards: Databricks는 다양한 오픈 소스 및 제3자 기술과 원활하게 통합되어, 팀이 익숙한 도구와 라이브러리를 최소한의 마찰로 활용할 수 있게 합니다. 사용자는 자신의 비즈니스 문제를 정의하고 모델링하며, 특정 운영 요구에 맞는 솔루션을 맞춤화할 수 있는 유연성을 가지고 있습니다. 오픈 소스 도구는 내부에 대한 완전한 투명성을 제공합니다 - 감사 가능성, 검증, 지속적인 개선에 중요하며, 독점 도구는 성능 이점을 제공할 수 있습니다. Databricks에서는 사용자의 요구에 가장 적합한 도구를 선택할 수 있는 자유를 가지고 있습니다.
  3. Scalability: 수천 개의 노드가 있는 네트워크에서 최적화 문제를 해결하는 것은 계산적으로 매우 복잡합니다. 스트레스 테스트는 수만 개의 중단 시나리오에 대해 시뮬레이션을 실행하는 것을 필요로 합니다 - 전략적(연간/분기별) 또는 전술적(주간/일일) 계획을 위해 - 이는 매우 확장 가능한 플랫폼을 필요로 합니다. Databricks는 이 분야에서 뛰어나며, Ray와 Spark와 같은 분산 컴퓨팅 프레임워크와의 강력한 통합을 통해 복잡한 작업 부하를 효율적으로 처리하는 수평 확장을 제공합니다.

요약

세계적인 공급망은 종종 네트워크 취약점에 대한 가시성을 부족하게 느끼며, 어떤 공급업체 사이트나 시설이 방해 중에 가장 큰 피해를 초래할지 예측하는 데 어려움을 겪습니다. 이로 인해 반응적인 위기 관리가 이루어집니다. 이 글에서는 운영 데이터를 활용하여 공급망 네트워크의 디지털 트윈을 구축하고, Databricks의 확장 가능한 플랫폼에서 수천 개의 중단 시나리오에 대해 복구 시간(TTR) 및 생존 시간(TTS) 지표를 평가하는 스트레스 테스트 시뮬레이션을 실행하는 방법을 제시했습니다. 이 방법은 고위험, 취약한 노드를 식별함으로써 위험 완화 투자를 최적화하는 데 도움이 됩니다. 이는 포드가 공급업체 사이트 중 일부만이 이익에 크게 영향을 미친다는 것을 발견한 것과 유사하며, 저위험 영역에 대한 과다 투자를 피할 수 있습니다. 결과적으로 이익 마진이 보존되고 공급망 비용이 감소합니다.

Databricks는 확장 가능한 아키텍처, 실시간 데이터 교환을 위한 Delta Sharing, 오픈 소스 및 제3자 도구와의 원활한 통합 덕분에 이 접근법에 이상적으로 적합합니다. 이를 통해 투명하고, 유연하며, 효율적이고, 비용 효율적인 공급망 모델링이 가능합니다. 노트북 을 다운로드하여 Databricks에서 대규모 공급망 네트워크의 스트레스 테스팅이 어떻게 구현될 수 있는지 탐색해 보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?