2026년 2월 17일

Databricks에서 높은 QPS의 Model Serving을 위한 모범 사례

Lakehouse 내에서 기본적으로 실시간 ML 애플리케이션을 구동하세요

작성자: 테자스 순다레산, Anshul Gupta, 아르준 디쿠냐 , 마이크 델 발소

모델 서빙은 낮은 지연 시간의 실시간 ML에 특화된 향상된 엔진을 통해 300K+ QPS(CPU)까지 확장되는 실시간 Endpoint를 지원합니다.
고객은 모델 서빙을 사용하여 추천 시스템, 사기 탐지, 검색 및 기타 사용 사례와 같은 높은 QPS의 실시간 ML 애플리케이션을 구동합니다.
모델을 서빙할 때 경로 최적화 엔드포인트, 엔드포인트 모범 사례 및 클라이언트 측 최적화를 사용하여 높은 성능 목표를 달성하세요.

고객은 밀리초 단위로 렌더링되는 추천, 승인되기 전에 차단되는 사기성 청구, 사용자에게 즉각적으로 느껴지는 검색 결과 등 모든 상호 작용에서 즉각적인 응답을 기대합니다. 대규모 환경에서 이러한 경험을 제공하는 것은 지속적이고 고르지 않은 로드에서도 빠르고 안정적이며 예측 가능한 상태를 유지하는 모델 서빙 시스템에 달려 있습니다.

트래픽이 초당 수만 또는 수십만 건의 요청으로 증가함에 따라 많은 팀이 동일한 문제에 직면합니다. 지연 시간이 일정하지 않게 되고 인프라 비용이 증가하며, 수요 급증 및 급감에 대처하기 위해 시스템을 지속적으로 조정해야 합니다. 더 많은 구성 요소가 함께 연결되면서 장애 진단이 더 어려워지고, 이로 인해 팀은 모델 개선에서 멀어져 프로덕션 시스템을 계속 실행하는 데 집중하게 됩니다.

이 게시물에서는 Databricks의 모델 서빙 이 높은 QPS의 실시간 워크로드를 지원하는 방법을 설명하고, 프로덕션에서 낮은 지연 시간, 높은 처리량 및 예측 가능한 성능을 달성하기 위해 적용할 수 있는 구체적인 모범 사례를 간략하게 설명합니다.

Databricks Model Serving: 높은 QPS 워크로드를 위한 간편성과 확장성

Databricks Model Serving은 Databricks lakehouse 내에서 직접 완전 관리형의 확장 가능한 서빙 인프라를 제공합니다. 모델 레지스트리에서 기존 모델을 가져와 배포하기만 하면 높은 QPS 트래픽에 최적화되고 확장성이 뛰어난 관리형 인프라에서 REST 엔드포인트를 얻을 수 있습니다.

Databricks 모델 서빙은 미션 크리티컬한 높은 QPS 워크로드에 최적화되어 있습니다.

실시간 적응형 엔진 – 각 모델의 워크로드에 맞춰 조정되어 동일한 하드웨어에서 더 높은 처리량과 리소스 활용률을 이끌어내는 자체 최적화 모델 서버입니다.
완전한 수평 확장형 아키텍처 – 추론 서버, 인증 계층, 프록시, 속도 제한기는 모두 독립적으로 스케일 아웃되도록 설계되어 시스템이 매우 높은 요청량을 유지할 수 있습니다.
빠른 탄력적 확장 – 추론 서버는 과도한 프로비저닝 없이 갑작스러운 트래픽 급증이나 감소에 맞춰 확장 및 축소할 수 있습니다.
기본 특징점 통합: Databricks Feature Serving은 Model Serving과 원활하게 통합되어 기능과 모델을 하나의 완전한 애플리케이션으로 함께 배포할 수 있습니다.
레이크하우스 네이티브: 고객은 하나의 통합 스택에서 기능, 학습, MLFlow를 통한 MLOps, 제공, 프로덕션 ML 시스템의 실시간 모니터링을 중앙 집중화하여 운영 복잡성을 줄이고 배포 속도를 높일 수 있습니다.

Databricks Model Serving은 우리 팀이 실시간 애플리케이션에 필요한 안정성과 확장성을 갖추고 머신 러닝 모델을 배포할 수 있도록 지원합니다. 이는 하드웨어 활용률을 극대화하면서 높은 QPS 워크로드를 처리하도록 설계되었습니다. 이에 더해 Databricks는 이러한 워크로드에 필요한 매우 빠른 조회가 가능한 SOTA 특징점 솔루션을 제공합니다. 이러한 기능을 통해 ML 엔지니어는 모델 성능 개선 및 사용자 경험 향상과 같은 중요한 작업에 집중할 수 있습니다. —Bojan Babic, 리서치 엔지니어, You.com

모델 서빙에서 높은 QPS 성능을 달성하기 위한 모범 사례

이러한 기반이 마련되면 다음 단계는 엔드포인트, 모델, 클라이언트 애플리케이션을 최적화하여 특히 트래픽이 증가할 때 높은 처리량과 낮은 지연 시간을 일관되게 달성하는 것입니다. 다음 모범 사례는 매일 수백만에서 수십억 건의 추론을 실행하는 실제 고객 배포를 지원합니다.

자세한 내용은 모범 사례 가이드 를 참조하세요.

모범 사례 1: 경로 최적화 엔드포인트를 사용하여 지연 시간 단축

네트워크 계층이 높은 처리량/QPS와 낮은 지연 시간에 최적화되도록 보장하는 것이 핵심적인 첫 단계입니다. Model Serving은 경로 최적화 엔드포인트를 통해 이 작업을 수행합니다. 엔드포인트에서 경로 최적화를 활성화하면 Databricks 모델 서빙이 추론 요청에 대한 네트워크 및 라우팅을 최적화하여 클라이언트와 모델 간에 더 빠르고 직접적인 통신이 이루어집니다. 이를 통해 요청이 모델에 도달하는 데 걸리는 시간이 크게 단축되며, 특히 추천 시스템, 검색, 사기 탐지와 같은 저지연 애플리케이션에 유용합니다.

모범 사례 2: 모델 최적화 및 엔드포인트 효율화

높은 처리량 시나리오에서는 모델 복잡성을 줄이고, 서빙 엔드포인트에서 처리를 오프로드하고, 적절한 동시성 목표를 선택하면 필요한 양의 컴퓨팅만으로 엔드포인트를 대량 요청 볼륨으로 확장하는 데 도움이 됩니다. 이렇게 하면 엔드포인트가 비용 효율적이면서도 성능 목표를 달성하도록 확장할 수 있습니다.

모델 크기 및 복잡성: 더 작고 덜 복잡한 모델은 일반적으로 더 빠른 추론 시간과 더 높은 QPS로 이어집니다. 모델이 큰 경우 모델 양자화 또는 가지치기와 같은 기술을 고려하세요.
전처리 및 후처리: 가능하면 복잡한 전처리 및 후처리 단계를 서빙 엔드포인트에서 오프로드하세요. 이를 통해 모델 서빙 엔드포인트가 중요한 추론 단계만 수행하도록 보장합니다.
확장: 예상 QPS 및 지연 시간 요구 사항에 따라 프로비저닝된 동시성 제한을 구성합니다. 이를 통해 엔드포인트가 기준 부하를 충분히 처리하고 최대 수요에 대응할 수 있도록 합니다.

QPS 한도 — *Configure a minimum and max concurrency based on our target QPS limits*

Databricks Model Serving을 사용하면 개인화 및 추천과 같은 높은 QPS 워크로드를 실시간으로 처리할 수 있습니다. 이는 우리 브랜드가 수백만 명의 독자에게 맞춤형 콘텐츠 경험을 제공하는 데 필요한 규모와 속도를 제공합니다. —오스카 셀마, Conde Nast 데이터 과학 및 제품 분석 수석 부사장

모범 사례 3: 클라이언트 측 코드 최적화

클라이언트 측 코드를 최적화하면 요청이 신속하게 처리되고 엔드포인트 컴퓨팅 인스턴스가 완전히 활용되어 QPS throughput 향상, 비용 절감 및 지연 시간 단축으로 이어집니다.

연결 풀링: 클라이언트 측에서 연결 풀링을 사용하여 각 요청에 대한 새 연결 설정 오버헤드를 줄이세요. Databricks SDK는 항상 연결 모범 사례를 사용하지만, 자체 클라이언트를 사용해야 하는 경우 연결 관리 전략에 유의해야 합니다.
페이로드 크기: 네트워크 전송 시간을 최소화하려면 요청 및 응답 페이로드를 최대한 작게 유지하세요.
클라이언트 측 배치: 애플리케이션이 단일 호출로 여러 요청을 보낼 수 있는 경우 클라이언트 측에서 배치를 활성화하세요. 이렇게 하면 예측당 오버헤드를 크게 줄일 수 있습니다.

Databricks 모델 서빙 엔드포인트를 호출할 때 요청을 배치하세요

지금 시작해 보세요!

Databricks 모델 서빙을 사용해 보세요! REST API로 ML 모델 배포를 시작하세요.
더 자세히 알아보기: 사용자 지정 Model Serving에 대한 Databricks 설명서 를 참조하세요.
높은 QPS 가이드: Databricks Model Serving에서 높은 QPS 서빙을 위한 모범 사례 가이드 를 확인하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)