주요 컨텐츠로 이동

Databricks에서 다중 모델 예측을 위한 프레임워크

A Framework for Multi-Model Forecasting on Databricks

소개

시계열 예측은 대부분의 기업에서 재고 및 수요 관리의 기초 역할을 합니다. 과거 기간의 데이터와 예상되는 조건을 함께 사용하여 기업은 수익과 판매 단위를 예측할 수 있으며, 이를 통해 예상 수요를 충족하기 위한 리소스를 할당할 수 있습니다. 이 작업의 기초적인 특성을 고려할 때, 기업은 예측 정확도를 개선할 방법을 끊임없이 모색하고 있으며, 이를 통해 자본 투자를 최소화하면서 적시에 적절한 장소에 적절한 리소스를 배치할 수 있습니다.

대부분의 조직이 직면한 과제는 사용할 수 있는 예측 기법의 광범위한 범위입니다. 고전적인 통계 기법, 일반화 가법 모델, 머신러닝 및 딥러닝 기반 접근 방식, 그리고 이제는 사전 훈련된 생성형 AI 트랜스포머가 조직에 압도적인 선택지를 제공하며, 일부는 다른 시나리오에서 더 잘 작동합니다.

대부분의 모델 제작자는 기준 데이터셋에 대한 예측 정확도 향상을 주장하지만, 실제로는 도메인 지식과 비즈니스 요구 사항이 일반적으로 모델 선택지를 몇 가지로 좁히고, 그러한 다음에는 실제 적용 및 조직의 데이터셋에 대한 평가만이 어떤 것이 가장 잘 작동하는지 결정할 수 있습니다. 그리고 "최고"는 종종 예측 단위마다, 심지어 시간이 지남에 따라 달라지므로, 조직은 현재 가장 잘 작동하는 것을 결정하기 위해 기법 간의 지속적인 비교 평가를 수행해야 합니다.

이 블로그에서는 예측 모델의 비교 평가를 위한 프레임워크인 Many Model Forecasting (MMF)를 소개합니다. MMF를 사용하면 사용자는 수십만에서 수백만 개의 시계열을 가장 세분화된 수준으로 확장하여 여러 예측 모델을 사용하여 학습하고 예측할 수 있습니다. 데이터 준비, 백테스팅, 교차 검증, 채점 및 배포를 지원하는 이 프레임워크를 통해 예측 팀은 코딩보다는 구성을 강조하여 고전적이고 최첨단 모델을 사용하여 완전한 예측 생성 솔루션을 구현할 수 있으며, 프로세스에 새로운 모델과 기능을 도입하는 데 필요한 노력을 최소화할 수 있습니다. 저희는 수많은 고객 구현에서 이 프레임워크가 다음과 같은 이점을 제공한다는 것을 발견했습니다.

  1. 시장 출시 시간 단축: 이미 통합된 많은 잘 확립되고 최첨단 모델을 통해 사용자는 솔루션을 신속하게 평가하고 배포할 수 있습니다.
  2. 예측 정확도 향상: 광범위한 평가와 세분화된 모델 선택을 통해 MMF는 조직이 향상된 정밀도를 제공하는 예측 접근 방식을 효율적으로 발견할 수 있도록 합니다.
  3. 운영 준비 지원: MLOps 모범 사례를 준수함으로써 MMF는 Databricks Mosaic AI와 기본적으로 통합되어 원활한 배포를 보장합니다.

프레임워크를 사용하여 40개 이상의 모델에 액세스

Many Model Forecasting (MMF) 프레임워크는 완전히 액세스 가능하고 투명하며 주석이 달린 소스 코드를 갖춘 Github 리포지토리로 제공됩니다. 조직은 프레임워크를 그대로 사용하거나 특정 조직에 필요한 기능을 추가하도록 확장할 수 있습니다.

MMF는 현재 가장 인기 있는 오픈 소스 예측 라이브러리 중 일부인 statsforecast, neuralforecast, sktime, r fable, chronos, moirai, moment의 통합을 통해 40개 이상의 모델에 대한 내장 지원을 포함합니다. 고객이 더 새로운 모델을 탐색함에 따라 더 많은 모델을 지원할 예정입니다.

이러한 모델이 프레임워크에 이미 통합되어 있으므로 사용자는 각 모델에 특정한 데이터 준비 및 모델 학습의 중복 개발을 제거하고 대신 평가 및 배포에 집중하여 시장 출시 시간을 크게 단축할 수 있습니다. 이는 리소스가 제한된 데이터 과학자 및 머신러닝 엔지니어 팀과 결과를 간절히 원하는 비즈니스 이해 관계자에게 특히 유리합니다.

MMF를 사용하면 예측 팀은 여러 모델을 동시에 평가할 수 있으며, 내장된 논리와 사용자 정의 논리 모두 각 시계열에 가장 적합한 모델을 선택하고 전체 예측 솔루션의 정확도를 향상시킬 수 있습니다. Databricks 클러스터에 배포된 MMF는 자동 병렬 처리를 통해 모델 학습 및 평가 속도를 높이기 위해 제공되는 전체 리소스를 활용합니다. 팀은 예측 작업에 사용할 리소스를 구성하기만 하면 MMF가 나머지를 처리합니다.

모델 출력 및 비교 평가에 집중

MMF의 핵심은 모델 출력의 표준화입니다. 예측을 실행할 때 MMF는 evaluation_output 및 scoring_output의 두 가지 UC 테이블을 생성합니다. evaluation_output(그림 1) 테이블은 모든 시계열 및 모델에 걸쳐 모든 백테스팅 기간의 모든 평가 결과를 저장하여 각 모델의 성능에 대한 포괄적인 개요를 제공합니다. 여기에는 실제 값과 함께 예측이 포함되어 있어 사용자가 특정 비즈니스 요구 사항에 맞는 사용자 지정 메트릭을 구성할 수 있습니다. MMF는 MAE, MSE, RMSE, MAPE, SMAPE와 같은 몇 가지 즉시 사용 가능한 메트릭을 제공하지만, 사용자 지정 메트릭을 생성하는 유연성은 최적의 예측 결과를 보장하면서 상세한 평가 및 모델 선택 또는 앙상블을 용이하게 합니다.

그림 1. MMF가 evaluation_ouput 테이블에 자동으로 캡처한 평가 결과

두 번째 테이블인 scoring_output(그림 2)에는 각 모델의 각 시계열에 대한 예측이 포함됩니다. evaluation_output 테이블에 저장된 포괄적인 평가 결과를 사용하여 가장 성능이 좋은 모델 또는 모델 조합의 예측을 선택할 수 있습니다. 경쟁 모델 풀 또는 선택된 모델의 앙상블에서 최종 예측을 선택함으로써 단일 모델에 의존하는 것에 비해 우수한 정확도와 안정성을 달성하여 대규모 예측 솔루션의 전반적인 정확도와 안정성을 향상시킬 수 있습니다.

그림 2. MMF가 scoring_output 테이블에 자동으로 캡처한 예측 출력
보고서

기업을 위한 에이전틱 AI 플레이북

자동화를 통한 모델 관리 용이성

Databricks 플랫폼을 기반으로 구축된 MMF는 Mosaic AI 기능과 원활하게 통합되어 매개변수, 집계 메트릭 및 모델(전역 및 기반 모델의 경우)을 MLflow(그림 3)에 자동으로 기록합니다. Databricks의 Unity Catalog의 일부로 보호되는 MMF를 통해 예측 팀은 모델 출력뿐만 아니라 모델에 대한 세분화된 액세스 제어 및 적절한 관리를 사용할 수 있습니다.

그림 3. MMF 및 MLFlow에서 제공하는 자동 모델 기록

팀이 모델을 재사용해야 하는 경우(머신러닝 시나리오에서 흔히 발생함), MLflow의 load_model 메서드를 사용하여 클러스터에 로드하거나 Databricks Databricks Model Serving(그림 4)을 사용하여 실시간 엔드포인트 뒤에 배포할 수 있습니다. Model Serving에 호스팅된 시계열 기반 모델을 사용하면 올바른 해상도로 기록을 제공하는 경우 언제든지 다단계 앞 예측을 생성할 수 있습니다. 이 기능은 주문형 예측, 실시간 모니터링 및 추적의 애플리케이션을 크게 향상시킵니다.

그림 4. 모델 서빙에 호스팅된 모델에서 실시간 예측 출력 생성을 제공하는 샘플 엔드포인트

지금 시작하기

Databricks에서 예측 생성은 가장 인기 있는 고객 사용 사례 중 하나입니다. 많은 비즈니스 프로세스에 대한 예측의 기초적인 특성은 기업이 예측 정확도 개선을 끊임없이 추구한다는 것을 의미합니다.

이 프레임워크를 통해 예측 팀이 작업에 필요한 가장 확장 가능하고 강력하며 광범위한 기능에 쉽게 액세스할 수 있기를 바랍니다. MMF를 통해 팀은 이제 새로운 접근 방식을 평가하고 프로덕션 준비 상태로 만드는 데 필요한 모든 개발 작업보다는 결과 생성에 집중할 수 있습니다.

감사의 말씀

statsforecast 및 neuralforecast (Nixtla), r fable, sktime, chronos, moirai, moment, timesfm의 팀에 오픈 소스 커뮤니티에 대한 기여에 감사드립니다. 이러한 기여를 통해 우리는 뛰어난 도구에 액세스할 수 있었습니다.

조직이 Databricks 환경 내에서 MMF를 시작하는 방법을 보여주는 MMF 리포지토리샘플 노트북을 확인해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요