Lakehouse 내에서 기본적으로 실시간 ML 애플리케이션을 구동하세요
작성자: 테자스 순다레산, Anshul Gupta, 아르준 디쿠냐 , 마이크 델 발소
고객은 밀리초 단위로 렌더링되는 추천, 승인되기 전에 차단되는 사기성 청구, 사용자에게 즉각적으로 느껴지는 검색 결과 등 모든 상호 작용에서 즉각적인 응답을 기대합니다. 대규모 환경에서 이러한 경험을 제공하는 것은 지속적이고 고르지 않은 로드에서도 빠르고 안정적이며 예측 가능한 상태를 유지하는 모델 서빙 시스템에 달려 있습니다.
트래픽이 초당 수만 또는 수십만 건의 요청으로 증가함에 따라 많은 팀이 동일한 문제에 직면합니다. 지연 시간이 일정하지 않게 되고 인프라 비용이 증가하며, 수요 급증 및 급감에 대처하기 위해 시스템을 지속적으로 조정해야 합니다. 더 많은 구성 요소가 함께 연결되면서 장애 진단이 더 어려워지고, 이로 인해 팀은 모델 개선에서 멀어져 프로덕션 시스템을 계속 실행하는 데 집중하게 됩니다.
이 게시물에서는 Databricks의 모델 서빙 이 높은 QPS의 실시간 워크로드를 지원하는 방법을 설명하고, 프로덕션에서 낮은 지연 시간, 높은 처리량 및 예측 가능한 성능을 달성하기 위해 적용할 수 있는 구체적인 모범 사례를 간략하게 설명합니다.
Databricks Model Serving은 Databricks lakehouse 내에서 직접 완전 관리형의 확장 가능한 서빙 인프라를 제공합니다. 모델 레지스트 리에서 기존 모델을 가져와 배포하기만 하면 높은 QPS 트래픽에 최적화되고 확장성이 뛰어난 관리형 인프라에서 REST 엔드포인트를 얻을 수 있습니다.

Databricks 모델 서빙은 미션 크리티컬한 높은 QPS 워크로드에 최적화되어 있습니다.
Databricks Model Serving은 우리 팀이 실 시간 애플리케이션에 필요한 안정성과 확장성을 갖추고 머신 러닝 모델을 배포할 수 있도록 지원합니다. 이는 하드웨어 활용률을 극대화하면서 높은 QPS 워크로드를 처리하도록 설계되었습니다. 이에 더해 Databricks는 이러한 워크로드에 필요한 매우 빠른 조회가 가능한 SOTA 특징점 솔루션을 제공합니다. 이러한 기능을 통해 ML 엔지니어는 모델 성능 개선 및 사용자 경험 향상과 같은 중요한 작업에 집중할 수 있습니다. — Bojan Babic, 리서치 엔지니어, You.com
이러한 기반이 마련되면 다음 단계는 엔드포인트, 모델, 클라이언트 애플리케이션을 최적화하여 특히 트래픽이 증가할 때 높은 처리량과 낮은 지연 시간을 일관되게 달성하는 것입니다. 다음 모범 사례는 매일 수백만에서 수십억 건의 추론을 실행하는 실제 고객 배포를 지원합니다.
자세한 내용은 모범 사례 가이드 를 참조하세요.
네트워크 계층이 높은 처리량/QPS와 낮은 지연 시간에 최적화되도록 보장하는 것이 핵심적인 첫 단계입니다. Model Serving은 경로 최적화 엔드포인트를 통해 이 작업을 수행합니다. 엔드포인트에서 경로 최적화를 활성화하면 Databricks 모델 서빙이 추론 요청에 대한 네트워크 및 라우팅을 최적화하여 클라이언트와 모델 간에 더 빠르고 직접적인 통신이 이 루어집니다. 이를 통해 요청이 모델에 도달하는 데 걸리는 시간이 크게 단축되며, 특히 추천 시스템, 검색, 사기 탐지와 같은 저지연 애플리케이션에 유용합니다.

높은 처리량 시나리오에서는 모델 복잡성을 줄이고, 서빙 엔드포인트에서 처리를 오프로드하고, 적절한 동시성 목표를 선택하면 필요한 양의 컴퓨팅만으로 엔드포인트를 대량 요청 볼륨으로 확장하는 데 도움이 됩니다. 이렇게 하면 엔드포인트가 비용 효율적이면서도 성능 목표를 달성하도록 확장할 수 있습니다.

Databricks Model Serving을 사용하면 개인화 및 추천과 같은 높은 QPS 워크로드를 실시간으로 처리할 수 있습니다. 이는 우리 브랜드가 수백만 명의 독자에게 맞춤형 콘텐츠 경험을 제공하는 데 필요한 규모와 속도를 제공합니다. — 오스카 셀마, Conde Nast 데이터 과학 및 제품 분석 수석 부사장
클라이언트 측 코드를 최적화하면 요청이 신속하게 처리되고 엔드포인트 컴퓨팅 인스턴스가 완전히 활용되어 QPS throughput 향상, 비용 절감 및 지연 시간 단축으로 이어집니다.
Databricks 모델 서빙 엔드포인트를 호출할 때 요청을 배치하세요
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.