주요 컨텐츠로 이동
일체 포함

Databricks에서 오픈소스 모델을 위한 프롬프트 캐싱으로 LLM 추론 가속화

프롬프트 캐싱으로 더 빠르고 안전한 OSS LLM 추론.

작성자: 페이-룬 라이오, Asfandyar Qureshi, Roshan Regula, Bruce Fontaine, James Thomas , 첸양 유

  • 프롬프트 캐싱은 반복되는 프롬프트 접두사를 재사용하여 LLM을 더 빠르게 실행합니다. 지연 시간을 줄이고 처리량을 자동으로 늘립니다.
  • Databricks는 이제 배치, 토큰당 지불 및 프로비저닝된 워크로드 전반에 걸쳐 오픈소스 모델에 대한 프롬프트 캐싱을 지원합니다. 설정이 필요 없습니다.
  • GPT-OSS의 프로덕션 환경에서 프롬프트 캐싱은 처리량을 2.5배 늘리고 P50 지연 시간을 3배 줄였습니다.

프롬프트 캐싱의 중요성

대규모 언어 모델(LLM) 추론은 종종 반복적인 프롬프트를 포함합니다. 수천 건의 요청에 동일한 시스템 또는 지침 프롬프트가 나타나는 것을 생각해 보세요. 모든 호출에 대해 동일한 접두사를 다시 처리하면 컴퓨팅 주기가 낭비되고 지연 시간이 늘어나며 비용이 증가합니다.

프롬프트 캐싱은 이러한 중복성을 제거하여 다음을 제공합니다:

  • 낮은 지연 시간 – 캐시 히트 시 사전 채우기 단계를 건너뛸 수 있습니다.
  • 높은 처리량모델 단위당 더 많은 토큰이 처리됩니다.

프롬프트 캐싱은 모델의 토큰 처리량을 저하시키지 않으면서 특정 도메인에서 모델의 품질을 높이는 강력한 기술이 될 수 있습니다. 쿼리는 대규모 도메인별 시스템 프롬프트를 공유할 수 있으며, 해당 공유 프롬프트의 컴퓨팅 비용은 모든 쿼리에 분산됩니다. Claude와 같은 최첨단 모델은 내부적으로 수천 개의 토큰 길이인 시스템 프롬프트를 사용합니다. 또한 최근 발표한 연구에서 자동화된 프롬프트 최적화를 통해 오픈소스 모델이 엔터프라이즈 작업에서 최첨단 모델의 품질을 능가할 수 있음을 보여주었습니다.

기능 가용성

Databricks는 이미 독점 모델(GPT, Gemini, Claude)에 대한 기본 프롬프트 캐싱을 제공합니다. 이제 이 기능을 배치 추론, 토큰당 지불 및 프로비저닝된 처리량 워크로드에 대한 Foundation Model API(FMAP)를 지원하는 오픈 가중치 모델로 확장했습니다. 또한 에이전트 브릭, Genie, AI 함수와 같이 재단 모델로 지원되는 모든 상위 수준 서비스에도 적용됩니다.

이제 Databricks에서 호스팅되는 다음 OSS 모델에 대해 프롬프트 캐싱이 지원됩니다.

  • GPT‑OSS 20B 및 120B
  • Gemma 3 12B
  • PEFT 서빙을 통한 Fine-tuned Llama 3.1 8B
  • Llama 3.1 8B 및 3.3 70B

이 기능은 다른 모델에도 계속 출시될 예정입니다. Databricks에서는 보안을 최우선으로 생각합니다. 프롬프트 캐시는 격리되어 휘발성 메모리에만 상주하며 절대 지속되지 않습니다. 중요하게도 캐싱은 암시적입니다. 고객이 구성할 필요가 없으며, 당사 시스템은 처리량을 개선하기 위해 프롬프트 캐싱 및 재사용을 자동으로 실행하도록 구축되었습니다.

실제 영향: GPT OSS의 배치 추론

먼저 GPT‑OSS 모델에 프롬프트 캐싱을 출시했으며 즉시 대규모 프로덕션 배치 추론 파이프라인에서 측정 가능한 이득을 보았습니다.

  • 복제본당 입력 토큰 처리량이 2.5배 증가했습니다.
  • P50 지연 시간이 3배 감소했습니다.
  • 이 모든 것이 비교적 낮은 30%의 캐시 히트율로 달성되었습니다.
Prompt Caching GPT‑OSS Models

요점

동일한 프롬프트에 대한 KV 캐시를 자동으로 재사용함으로써 Databricks는 추가 구성 없이 오픈소스 LLM을 더 빠르고 비용 효율적이며 안전하게 실행할 수 있도록 지원합니다. 실시간 채팅을 제공하든, 대규모 문서 컬렉션을 배치 처리하든, AI 에이전트를 구축하든 프롬프트 캐싱은 좋은 추론 파이프라인을 훌륭하게 만들 수 있습니다. 다음 OSS 모델 배포 시 사용해 보고 처리량 지표가 올라가는 것을 확인해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.