자동화된 프롬프트 최적화로 엔터프라이즈 에이전트를 90배 저렴하게 구축하기

Databricks Agent Bricks 는 기업 업무흐름을 위한 제품 수준의 AI 에이전트 를 구축, 평가, 배포하는 플랫폼입니다. 우리의 목표는 고객이 도메인 특정 작업에 대한 가장 효율적인 품질-비용 균형의 파레토 최전선 을 달성하고, 그들의 데이터에 의거한 고객의 에이전트를 지속적으로 개선하는 것입니다. 이를 지원하기 위해, 우리는 기업 중심의 벤치마크를 개발하고, 정확성과 서빙 효율을 측정하는 에이전트에 대한 경험적 평가를 진행합니다. 이것은 실제로 생산에서 기업들이 마주하게 되는 실제 트레이드 오프를 반영합니다.

우리의 더 넓은 대행자 최적화 툴킷에는 이 게시물이 초점을 맞추며, 평가로부터의 피드백 신호를 이용하여 프롬프트를 자동으로 개선하는 반복적이며 구조화된 검색에 의해 가이드 된 자동 프롬프트 최적화 기술에 집중합니다. 우리는 어떻게:

오픈소스 모델이 기업 작업을 위한 최첨단 모델의 품질을 뛰어넘게 하기: GEPA, Databricks와 UC 버클리의 연구에서 나온 새로 출시된 프롬프트 최적화 기술을 활용하여, gpt-oss-120b가 최첨단의 독점 모델 Claude Sonnet 4와 Claude Opus 4.1을 대략 3% 가량 뛰어넘는 방법을 제시합니다. 이 모델은 각각 20배 와 90배 더 저렴한 서빙 비용으로 구현됩니다(아래의 Pareto frontier plot을 참조하세요).
특허를 받은 최전선 모델을 더욱 높일 수 있습니다: 우리는 이 같은 접근 방식을 선도적인 특허를 받은 모델에 적용하였고, Claude Opus 4.1 및 Claude Sonnet 4 기본 성능을 6-7% 향상시켜 새로운 최고 수준의 성능을 달성하였습니다.
SFT에 비해 우수한 품질-비용 트레이드오프를 제공하다: 자동 프롬프트 최적화는 SFT에 준하거나, 더 나은 성능을 제공하면서 서빙 비용을 20% 줄입니다. 또한 우리는 프롬프트 최적화와 SFT가 함께 작동하여 성능을 더욱 향상시킬 수 있음을 보여줍니다.

다음 절에서는

기업 업무흐름에 있어 정보 추출을 위한 AI 에이전트 성능 평가 방법과 그 중요성;
프롬프트 최적화는 어떻게 작동하는지, 특히 미세 조정이 실현 가능하지 않은 시나리오에서 그것이 어떤 이점을 제공하는지, 그리고 우리의 평가 파이프라인에서의 성능 향상에 대한 개요;
이러한 획득에 대한 맥락을 이해하기 위해, 우리는 프롬프트 최적화의 영향을 측정하고, 이러한 기법들 뒤의 경제학을 분석할 것입니다;
SFT와의 성능 비교, 프롬프트 최적화에 의한 우수한 품질-비용 트레이드오프를 강조;
핵심 정리 및 다음 단계, 특히 이러한 기법을 Databricks Agent Bricks를 사용하여 실제 엔터프라이즈 배치에 최적화된 최고 수준의 AI 에이전트를 구축하는 방법에 대한 정보를 얻는 방법입니다.

오픈 소스 모델을 최적화하여 최전선 모델 성능을 초과하는 방법

우리는 모델 성능을 향상시키기 위한 체계적인 방법으로 자동 프롬프트 최적화 를 탐구합니다. 수동 프롬프트 엔지니어링은 성과를 제공할 수 있지만, 이는 일반적으로 도메인 전문성과 시행 착오 실험에 의존합니다. 이 복잡성은 여러 LLM 호출과 최적화되어야 하는 외부 도구를 통합하는 복합 AI 시스템에서 더욱 성장하며, 이로 인해 수동 프롬프트 튜닝이 생산 파이프라인 전반에 걸쳐 확장하거나 유지하기에는 실제적이지 않게 만듭니다.

프롬프트 최적화는 다른 접근법을 제공하며, 피드백 신호에 의해 안내되는 구조화된 검색을 활용하여 프롬프트를 자동으로 개선합니다. 이러한 최적화 도구들은 파이프라인에 구애받지 않으며, 다단계 파이프라인에서 상호 의존적인 여러 프롬프트를 동시에 최적화 할 수 있어, 이 기법들은 복합 AI 시스템과 다양한 작업들에 걸쳐 견고하고 적응할 수 있게 만듭니다.

이를 테스트하기 위해, 우리는 자동화된 프롬프트 최적화 알고리즘, 특히 MIPROv2, SIMBA, 그리고 GEPA를 적용한, 새로운 프롬프트 최적화자가 Databricks와 UC 버클리의 연구로 나왔으며, 언어 기반의 반영과 진화적검색을 결합하여 AI 시스템을 개선합니다. 우리는 이러한 알고리즘을 가장 성능이 좋은 오픈소스 모델인 gpt-oss-120b 와 최첨단 폐쇄 소스 프론티어 모델 사이의 차이를 줄일 수 있는 최적화된 프롬프트의 효과를 평가하기 위해 적용합니다.

우리는 탐색에서 자동 프롬프트 최적화의 다음 구성을 고려합니다

프롬프트 최적화 기법	최적화하려는 구성 요소	후보 탐색 알고리즘
MIPROv2	약간의 샷 + 지시사항	베이지안 검색
SIMBA	약간의 샷 + 지시사항	확률상승 검색
GEPA	명령어	진화적 파레토 검색

각 프롬프트 최적화 기법은 대상 학생 모델 의 프롬프트의 다른 면을 개선할 최적화 모델에 의존합니다. 알고리즘에 따라, 최적화 모델은 부트스트랩 트레이스에서 few-shot 예시를 생성하여 인-컨텍스트 학습을 적용하고/또는 개선할 태스크 명령어를 검색 알고리즘을 통해 제안하고 개선할 수 있습니다. 이 검색 알고리즘들은 피드백을 사용하여 반복적으로 성찰하고 최적화 시도를 거쳐 더 나은 프롬프트를 선택하고 변형합니다. 이러한 이해는 학생 모델이 서비스 시간 동안 추론을 사용하기 위한 개선된 프롬프트로 정제됩니다. 동일한 LLM을 둘 다에 사용할 수 있지만, 우리는 더 높은 품질의 지침이 학생 모델 성능을 더욱 향상시킬 수 있는지 탐색하기 위해 최적화 모델로서 "성능이 더 우수한 모델" 사용을 실험합니다.

gpt-oss-120b이 IE 벤치에서 가장 선도적인 오픈 소스 모델이라는 초기 발견에 기반하여, 우리는 이를 학생 모델 기준선으로 간주하여 더욱 개선을 탐색합니다.

gpt-oss-120b를 최적화할 때, 우리는 두 가지 구성을 고려합니다:

gpt-oss-120b (최적화자) → gpt-oss-120b (학생)
Claude Sonnet 4 (최적화) → gpt-oss-120b (학생)

Claude Sonnet 4이 gpt-oss-120b보다 IE Bench에서 우수한 성능을 보이고, 비슷한 성능에 비해 Claude Opus 4.1보다 상대적으로 저렴하기 때문에, 보다 강력한 최적화 모델을 적용하면 gpt-oss-120b에 대한 성능을 향상시킬 수 있는지 가설을 살펴봅니다.

우리는 각 구성을 최적화 기법과 비교하여 각각의 gpt-oss-120b 베이스라인을 평가합니다:

IE 벤치에서, 우리는 최적화 모델로 클로드 소네트 4를 사용하여 gpt-oss-120b를 최적화하였을 때 기본 성능에 비해 가장 큰 향상을 보여줍니다. 이는 기본 성능에 비해 +4.3 포인트의 상당한 향상과, 최적화 모델로서의 gpt-oss-120b로 최적화를 수행할 때보다 +0.3 포인트의 향상을 보여주고, 더 강력한 최적화 모델의 사용을 통한 리프트를 강조합니다.

우리는 가장 우수하게 GEPA에 의해 최적화된 gpt-oss-120b 구성을 최전선의 Claude 모델과 비교합니다:

최적화된 gpt-oss-120b 설정은 Claude Opus 4.1의 최신 기준 성능을 +2.2 절대 이익으로 뛰어넘어, 자동 프롬프트 최적화의 이점을 강조하고 IE 기능에서 선도적인 독점 모델을 능가하는 오픈 소스 모델을 향상시킵니다.

최전선 모델을 최적화하여 성능 상한을 더 높이는 방법

자동 프롬프트 최적화의 중요성을 보면서, 이를 수행능력이 우수한 최첨단 모델인 Claude Sonnet 4 및 Claude Opus 4.1에 적용하면 IE Bench에 대한 실질적인 성능 향상이 가능한지를 탐구합니다.

각 독점 모델을 최적화할 때, 다음 설정을 고려합니다:

Claude Sonnet 4 (optimizer) → Claude Sonnet 4 (student)
Claude Opus 4.1 (최적화) → Claude Opus 4.1 (학생)

이러한 모델들이 이미 성능의 최전선을 정의하기 때문에, 우리는 기본 최적화 모델 구성을 고려하려고 합니다.

최적화된 Claude Sonnet 4는 기준 성능에 비해 +4.8 향상을 이루는 한편, 최적화된 Claude Opus 4.1은 전반적으로 최고의 성능을 달성하며, 이전 최첨단 성능에 비해 뚜렷한 +6.4 포인트 향상을 보입니다.

실험 결과를 집계하면, 모든 모델의 기본 성능에 대해 자동 프롬프트 최적화가 큰 성능 향상을 가져다주는 일관된 트렌드를 확인할 수 있습니다.

오픈소스와 클로즈드 소스 모델 평가를 모두 걸친 결과, 우리는 일관적으로 GEPA가 가장 높은 성능의 최적화기라는 것을 알게 되었고, 이를 SIMBA와 MIPRO가 뒤따르며, 자동화된 프롬프트 최적화를 사용하여 중요한 품질 향상을 이뤄냈습니다.

그러나, 비용을 고려할 때, 우리는 GEPA가 상대적으로 높은 런타임 오버헤드를 가지고 있다는 것을 확인하였습니다(최적화 탐색이 MIPRO 및 SIMBA (~1 시간)보다 O(3x) 더 많은 LLM 호출 (~2-3 시간)을 필요로 할 수 있음)³ IE Bench의 이런 경험적분석 동안. 그렇기 때문에 우리는 비용 효율성을 고려하여 최적화된 모델의 성능을 포함하여 우리의 품질-비용 파레토 프론티어를 업데이트합니다.

자동 프롬프트 최적화를 적용하면 Pareto 곡선 전체를 위로 이동시켜 새로운 최고 수준의 효율성을 구축한다는 점을 강조합니다:

GEPA-optimized gpt-oss-120b는 Claude Sonnet 4 와 Claude Opus 4.1 의 기본 성능을 뛰어넘으면서 22배 및 90배 더 싼 비용을 들입니다.
품질을 비용보다 우선시하는 고객을 위해, GEPA-optimized Claude Opus 4.1은 새롭게 최고 수준의 성능을 달성하게 하며, 상세 튜닝이 불가능한 최전선 모델에 대한 강력한 향상을 보여줍니다.
GEPA 최적화 모델의 총 서비스 비용 증가를 최적화를 통해 생성된 베이스라인 프롬프트보다 긴, 더 상세한 프롬프트로 인한 것으로 추정합니다.

자동 프롬프트 최적화를 에이전트에 적용함으로써 높은 성능과 비용 효율성의 Agent Bricks의 핵심 원칙을 이행하는 솔루션을 보여줍니다.

SFT와의 비교

감독하에 미세조정(SFT)은 종종 모델 성능을 향상시키는 기본 방법으로 여겨지지만, 자동 프롬프트 최적화와 어떻게 비교되는지

이에 대답하기 위해, IE Bench의 일부를 선택하여 gpt 4.1을 사용하여 SFT와 자동 프롬프트 최적화 성능을 평가하는 실험을 실시하였습니다(모델이 평가 시점에 출시되지 않았기 때문에 gpt-oss와 gpt-5는 이 비교에서 제외하였습니다).

SFT와 프롬프트 최적화 모두 독립적으로 gpt-4.1을 개선합니다. 구체적으로:

SFT gpt-4.1은 기반선에 비해 +1.9 포인트를 향상시켰습니다.
GEPA-optimized gpt-4.1은 +2.1 포인트를 얻었으며, SFT를 약간 뛰어넘습니다.

이것은 즉각적인 최적화가 감독 학습의 미세 조정까지 맞추고, 심지어 초과할 수 있다는 것을 보여줍니다.

최적화와 모델 가중치 미세 조정을 번갈아 가며 수행하여 LLM 성능을 향상시키는 기법인 BetterTogether에 의해 영감을 받아, 우리는 SFT 위에 GEPA를 적용하였고, 기본선에 비해 +4.8 포인트 향상을 달성하여, 이들 기법을 함께 사용하는 강력한 잠재력을 보여주었습니다.

비용 면에서, GEPA-optimized gpt-4.1 은 SFT-optimized gpt-4.1 보다 약 20% 더 저렴하면서 더 나은 품질을 제공합니다. 이는 GEPA가 SFT에 비해 Premium 품질-비용 균형을 제공한다는 점을 강조합니다. 또한, GEPA와 SFT를 결합하여 절대 품질을 최대화할 수 있으며, 이는 SFT 단독에 비해 2.7% 더 높게 수행하지만 서비스 비용은 약 22% 더 높습니다.⁴
IE 벤치(하위 집합)에서 SFT와 프롬프트 최적화 비교

우리는 gpt-oss-120b에 대한 비교를 확장하여 품질–비용 최전선을 검토하였습니다. SFT+GEPA-optimized gpt-4.1이 GEPA-optimized gpt-oss-120b의 성능에 0.3% 내에 가깝게 다가가지만, 후자는 15배 낮은 서비스 비용으로 동일한 품질을 제공함으로써, 대규모 배포에 더욱 실용적이고 매력적입니다.

이러한 비교들은, SFT와 함께 사용되든 독립적으로 사용되든 GEPA 최적화에 의해 가능해진 강력한 성능 향상을 보여줍니다. 또한 GEPA로 최적화 된 gpt-oss-120b의 탁월한 품질-비용 효율성을 강조합니다.

수명 비용

실제 세계의 용어로 최적화를 평가하기 위해, 우리는 고객에게 발생하는 생애 비용을 고려합니다. 최적화의 목적은 정확성을 향상시키는 것뿐만 아니라, 제작 요청을 처리할 수 있는 효율적인 에이전트를 생산하는 것입니다. 이는 최적화 비용 과 대량의 요청을 처리하는 비용을 모두 보는 것이 필수적이게 합니다.

아래 첫 번째 그래프에서는, 에이전트를 최적화하고 100k 요청을 서비스하는 데 드는 총 비용을 최적화 및 서비스 구성 요소별로 나타냈습니다. 이 규모에서는, 서빙이 전체 비용을 지배합니다. 모델 중에서:

gpt-oss-120b와 GEPA가 가장 효율적이며, 최적화 및 서빙 비용 모두에서 한 차원 낮은 비용입니다.
GPT 4.1과 SFT 및 Sonnet 4와 GEPA는 유사한 수명비용을 가지고 있습니다.
GEPA가 있는 Opus 4.1은 가장 비싼 비용이며, 이는 주로 높은 서빙 가격 때문입니다.

우리는 또한 다양한 작업 규모에서 최적화 비용과 서비스 비용의 비율이 어떻게 변하는지 조사합니다:

1k 서버 작업량에서는 서비스 비용이 최소화되므로, 최적화가 총 비용의 대부분을 차지합니다.
100k 요청에 이르러, 서빙 비용은 크게 증가하며, 최적화 오버헤드는 분산됩니다. 이 규모에서, 최적화의 이점 - 더 나은 성능을 더 낮은 서비스 비용으로 -는 그것의 일시적인 비용을 명확하게 상회합니다.
10M의 요청에서, 최적화 비용은 서비스 비용에 비해 무시할 만하게 되고, 이는 차트에 더 이상 보이지 않습니다.

요약

이 블로그 글에서, 우리는 자동 프롬프트 최적화가 기업 AI 작업에서 LLM 성능을 향상시키는 강력한 자극 물질이 됨을 보여주었습니다:

우리는 IE Bench를 개발했는데, 이는 실제 세계의 도메인을 아우르면서 복잡한 정보 추출 도전을 포착하는 포괄적인 평가 슈트입니다.
GEPA 자동 프롬프트 최적화를 적용함으로써, 우리는 선도적인 오픈 소스 모델인 gpt-oss-120b 의 성능을 향상시켜, 최첨단 소유형 모델 Claude Opus 4.1의 성능을 ~3% 초과하면서도 서비스 비용이 90배 저렴하게 만듭니다.
동일한 기법은 프론티어 소유형 모델에도 적용되며, Claude Sonnet 4와 Claude Opus 4.1을 6-7% 향상시킵니다.
감독하에 미세조정 (SFT)에 비해, GEPA 최적화는 기업용으로 더 우수한 품질-비용 트레이드오프를 제공합니다. SFT와 같거나 더 나은 성능을 제공하면서 서비스 비용을 20% 감소시킵니다.
생애 비용 분석 은 규모를 서빙할 때 (예: 100k 요청), 일회성 최적화 오버헤드는 빠르게 상각되며, 비용을 훨씬 상회하는 이점을 보여줍니다. 특히, GEPA on gpt-oss-120b는 다른 프론티어 모델과 비교해 대략 한 주문 적은 생애 비용 을 가져와 기업 AI 에이전트에게 매우 매력적인 선택으로 만듭니다.

종합하면, 우리의 결과는 프롬프트 최적화가 엔터프라이즈 AI 시스템의 품질-비용 Pareto 경계를 이동시키면서 성능과 효율성을 모두 향상시킴을 보여줍니다.

자동 프롬프트 최적화는 이전에 발표된 TAO, RLVR, 그리고 ALHF과 함께 이제 Agent Bricks에서 사용할 수 있습니다. Agent Bricks의 핵심 원칙은 기업이 정확하게 이유를 제시하는 에이전트를 구축하고, 도메인 특정 작업에서 최첨단의 품질 및 비용 효율성을 달성하는 것을 돕는 것입니다. 평가, 자동 최적화, 통제된 배포를 통합함으로써, Agent Bricks는 결함을 친철하게 수정하고, 피드백에서 학습하고, 기업의 도메인 특정 작업에 대한 지속적인 향상을 이루도록 돕습니다. 우리는 고객들이 정보 추출 및 기타 Agent Bricks 기능을 사용하여 자신의 기업 활용 사례를 위한 에이전트를 최적화해 보도록 권장합니다.

1 gpt-oss와 gpt-5 모델 시리즈 모두, 우리는 개발자 메시지에 대상 JSON 스키마를 삽입하여 구조화된 출력을 생성하는 OpenAI의 Harmony 형식의 모범 사례를 따릅니다.

또한 우리는 gpt-oss 시리즈 (낮음, 중간, 높음) 및 gpt-5 시리즈 (최소, 낮음, 중간, 높음)에 대한 다른 추론 노력 중에서 검열을 실시하고, 각 모델의 모든 추론 노력 중에서 최고 성능을 보고합니다.

2 서비스 비용 추정치에 대해, 우리는 모델 제공자의 플랫폼(OpenAI와 Anthropic는 독점 모델, Artificial Analysis는 오픈소스 모델용)에서 발표된 가격을 사용합니다. 비용은 이러한 가격을 IE Bench에서 관찰된 입력 및 출력 토큰 분포에 적용하여 각 모델에 대한 서비스 제공의 총 비용을 계산합니다.

3 자동화된 프롬프트 최적화의 실제 실행 시간은 많은 요인에 따라 다르므로 추정하기 어렵습니다. 여기서 우리는 우리의 경험적인 경험에 기초한 대략적인 추정을 제공하고 있습니다.

4 우리는 SFT gpt-4.1의 서비스 비용을 OpenAI의 게시된 미세 조정 모델 가격을 이용하여 추정합니다. GEPA-optimized 모델에 대해, 우리는 최적화된 프롬프트의 입력 및 출력 토큰 사용에 기반으로 서비스 비용을 계산합니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

자동화된 프롬프트 최적화로 엔터프라이즈 에이전트를 90배 저렴하게 구축하기

최신 LLM들이 IE Bench에서의 평가

오픈 소스 모델을 최적화하여 최전선 모델 성능을 초과하는 방법

최전선 모델을 최적화하여 성능 상한을 더 높이는 방법

SFT와의 비교

수명 비용

요약

관련 포스트

TAO: 레이블이 없는 데이터로 효율적인 LLMs를 훈련시키기 위해 테스트 시간 계산 사용

RLVR의 힘: Databricks에서 선도적인 SQL 추론 모델 훈련하기

사람의 피드백에서 학습하는 에이전트 (ALHF): Databricks 지식 도우미 사례 연구