Databricks Agent Bricks é uma plataforma para construir, avaliar, e implantar agentes de IA de nível de produção para fluxos de trabalho empresariais. Nosso objetivo é ajudar os clientes a alcançar o equilíbrio ótimo de qualidade-custo na fronteira de Pareto para suas tarefas específicas do domínio e melhorar continuamente seus agentes que raciocinam com seus próprios dados. Para apoiar isso, desenvolvemos benchmarks centrados na empresa e realizamos avaliações empíricas em agentes que medem precisão e eficiência de atendimento, refletindo os verdadeiros equilíbrios que as empresas enfrentam na produção.
Dentro de nosso amplo conjunto de ferramentas de otimização de agentes, este post se concentra na otimização automatizada de prompts, uma técnica que utiliza pesquisa iterativa e estruturada orientada por sinais de feedback da avaliação para melhorar automaticamente os prompts. Demonstramos como podemos:
- Permitir que modelos de código aberto ultrapassem a qualidade dos modelos de fronteira para tarefas corporativas: utilizando GEPA, uma técnica de otimização de prompts recém-lançada resultante da pesquisa Databricks e UC Berkeley, apresentamos como o gpt-oss-120b supera os modelos proprietários de última geração Claude Sonnet 4 e Claude Opus 4.1 em ~3% enquanto é aproximadamente 20x e 90x mais barato para servir, respectivamente (veja o gráfico de fronteira de Pareto abaixo).
- Elevar ainda mais os modelos proprietários de fronteira: aplicamos a mesma abordagem aos principais modelos proprietários, aumentando a performance base do Claude Opus 4.1 e Claude Sonnet 4 em 6-7% , alcançando um novo desempenho de última geração.
- Oferecer uma relação superior de qualidade-custo em comparação com o SFT: a otimização automática de prompts oferece um desempenho equiparável, ou melhor, do que o ajuste fino supervisionado (SFT), ao mesmo tempo que reduz os custos de serviço em 20%. Também mostramos que a otimiza ção de prompts e o SFT podem trabalhar juntos para melhorar ainda mais o desempenho.

Nas seções que seguem, abordaremos
- como avaliamos o desempenho do agente IA na extração de informações como um caso de uso principal e por que isso importa para os fluxos de trabalho empresariais;
- uma visão geral de como a otimização de promp funciona, os tipos de benefícios que ela pode desbloquear, especialmente em cenários onde a sintonização fina não é prática, e ganhos de desempenho em nossa pipeline de avaliação;
- para contextualizar esses ganhos, mediremos o impacto da otimização de prompts e analisaremos a economia por trás dessas técnicas;
- Comparação de desempenho com fine-tuning supervisionado (SFT), destacando o tradeoff superior de qualidade-custo através da otimização de prompts;
- considerações finais e próximos passos, especialmente como você pode começar a aplicar estas técnicas diretamente com Databricks Agent Bricks para construir os melhores agentes de IA voltados para implantação empresarial real.
Avaliação das LLMs mais recentes no IE Bench
Extração de Informações (IE) é um recurso central do Agent Bricks, convertendo fontes não estruturadas como PDFs ou documentos digitalizados em registros estruturados. Apesar do rápido progresso nas capacidades de IA gerativa, IE permanece difícil em escala empresarial:
- Documentos são extensos e cheios de jargão específico do domínio
- Os esquemas são complexos, hierárquicos e contêm ambiguidades
- Etiquetas são frequentemente ruidosas e inconsistentes
- A tolerância operacional para erro na extração é baixa
- Requisito de alta confiabilidade e eficiência de custos para grandes cargas de trabalho de inferência
Como resultado, observamos que o desempenho pode variar amplamente por domínio e complexidade da tarefa, portanto, construir os sistemas certos de IA composta para IE em diferentes casos de uso requer uma avaliação minuciosa das diferentes capacidades do agente de IA.
Para explorar isso, desenvolvemos IE Bench, uma suíte de avaliação abrangente que abrange vários domínios empresariais do mundo real como finanças, jurídico, comércio e saúde. O benchmark reflete desafios complexos do mundo real, incluindo documentos que ultrapassam 100 páginas, abrangendo entidades de extração com mais de 70 campos e esquemas hierárquicos com vários níveis aninhados. Relatamos avaliações no conjunto de teste retido do benchmark para fornecer uma medida confiável de desempenho no mundo real.
Nós benchmarked a última geração de modelos de código aberto servidos via Databricks Foundation Models API, incluindo o novo lançamento da série gpt-oss, bem como os principais modelos proprietários de vários fornecedores, incluindo a última família GPT-5.1

Nossos resultados mostram que o gpt-oss-120b é o modelo de código aberto de melhor desempenho no IE Bench, superando a performance anterior do estado da arte de código aberto do Llama 4 Maverick por ~3% enquanto se aproxima do nível de desempenho do gpt-5-mini, marcando um avanço significativo para os modelos de código aberto. No entanto, ainda fica atrás do desempenho do modelo de fronteira proprietário, ficando atrás de gpt-5, Claude Sonnet 4 e Claude Opus 4.1—que alcançam a pontuação mais alta no benchmark.
No entanto, em ambientes corporativos, o desempenho também deve ser ponderado contra o custo de servir. Contextualizamos ainda mais nossas descobertas anteriores, destacando que o gpt-oss-120b atinge o desempenho do gpt-5-mini enquanto custa aproximadamente 50% do custo de serviço. 2 Os modelos de fronteira proprietários são em grande parte mais caros, com o gpt-5 custando ~10x o custo de servir do gpt-oss-120b, Claude Sonnet 4 at ~20x e Claude Opus 4.1 at ~90x.
Para ilustrar a relação custo-benefício entre os modelos, plotamos a fronteira de Pareto abaixo, mostrando o desempenho baseline de todos os modelos antes de qualquer melhoria.

Esta relação custo-benefício tem grandes implicações para cargas de trabalho empresariais que necessitam de inferência em grande escala que devem considerar orçamento de computação e taxa de serviço, enquanto mantém a precisão performática.
Isso motiva nossa exploração: podemos elevar o gpt-oss-120b à qualidade de ponta mantendo sua eficiência de custo? Se sim, isso proporcionaria um desempenho líder na fronteira de Pareto de custo-qualidade, sendo possível para adoção empresarial na Databricks.
Otimizando modelos de código aberto para superar o desempenho de modelos de fronteira
Exploramos a otimização do prompt como um método sistemático para melhorar o desempenho do modelo. A engenharia de prompts manual pode proporcionar ganhos, mas geralmente depende de expertise no domínio e experimentação com tentativa e erro. Esta complexidade cresce ainda mais em sistemas de IA compostos que integram múltiplas chamadas LLM e ferramentas externas que devem ser otimizadas juntas, tornando a afinação manual do prompt impraticável para escalar ou manter em pipelines de produção.
A otimização de solicitações oferece uma abordagem diferente, aproveitando a busca estruturada orientada por sinais de feedback para melhorar automaticamente as solicitações. Esses otimizadores são agnósticos ao pipeline e são capazes de otimizar conjuntamente várias solicitações interdependentes em pipelines de múltiplas etapas, tornando essas técnicas robustas e adaptáveis em sistemas de IA compostos e tarefas diversas.
Para testar isso, aplicamos algoritmos de otimização de prompts automatizados, especificamente MIPROv2, SIMBA e GEPA, um novo otimizador de prompts oriundo de pesquisas da Databricks e UC Berkeley que combina reflexão baseada em linguagem com busca evolutiva para melhorar os sistemas de IA. Aplicamos esses algoritmos para avaliar como a otimização de prompts pode diminuir a lacuna entre o modelo de código aberto de melhor desempenho, gpt-oss-120b, e os modelos de fronteira de código fechado de última geração.
Consideramos as seguintes configurações de otimizadores de prompts automáticos em nossa exploração
