Um harness de agente de AI é a infraestrutura de software que envolve um modelo de linguagem grande (LLM) e permite que ele execute tarefas, e não apenas responda a prompts. O modelo raciocina sobre um problema e decide o que fazer a seguir. O harness o conecta às ferramentas, sistemas, memória e ambientes de execução necessários para realizar essas ações.
Agente = Modelo + Harness
Pense no modelo como o “cérebro” que gera raciocínio e decisões. O harness é tudo ao seu redor que ajuda o agente a operar de forma segura e confiável, incluindo:
Sem um harness, um modelo pode responder a perguntas, mas não consegue executar códigos, chamar APIs, acessar arquivos, lembrar de trabalhos anteriores ou concluir fluxos de trabalho de várias etapas por conta própria de maneira confiável.
Neste guia, abordaremos os componentes principais de um harness de agente de AI, por que os harnesses moldam o desempenho do agente, como os sistemas de agentes em produção são construídos e por que a engenharia de harness está surgindo como uma disciplina própria.
Os agentes de AI dependem de duas camadas complementares: um modelo que raciocina e um harness que age.
O modelo, seja GPT-5.5, Claude, Llama ou outro LLM, lê o contexto e decide o que fazer a seguir. O harness transforma essas decisões em ações, conectando o modelo a ferramentas, memória e sistemas externos.
Os sistemas de agentes modernos são cada vez mais construídos em torno dessa separação entre raciocínio e execução. Juntas, as duas camadas permitem que os agentes concluam tarefas de maneira confiável em fluxos de trabalho do mundo real.
No cerne de muitos agentes de AI está um ciclo de repetição. Compreender esse loop torna o papel do harness mais fácil de visualizar.
Esse padrão é frequentemente chamado de loop ReAct, abreviação de “raciocínio e ação” (reasoning and acting), e forma a base de muitos sistemas de agentes em produção hoje. O loop ReAct foi apresentado no artigo ReAct: Synergizing Reasoning and Acting in Language Models por Shunyu Yao et al. em 2022.
Considere um agente de codificação encarregado de corrigir um bug. O modelo propõe uma alteração de código. O harness executa o código em um sandbox isolado, captura os resultados dos testes e os retorna ao modelo. Se os testes falharem, o modelo raciocina sobre o que deu errado e tenta novamente. O harness gerencia a interação com o sistema subjacente enquanto o modelo se concentra em resolver a tarefa.
“Agente”, “modelo” e “harness” são frequentemente usados como sinônimos, mas se referem a partes diferentes do sistema. Esclarecer essa distinção ajuda as equipes a entender o que realmente estão construindo, depurando ou aprimorando.
| Componente | O que faz | Analogia simples |
|---|---|---|
| Modelo | Raciocina, prevê e gera texto ou outros outputs | O "cérebro" do sistema |
| Harness | Executa ações, gerencia a memória, executa ferramentas e aplica regras | O “corpo” e o espaço de trabalho ao redor do cérebro |
| Agente | O sistema de trabalho completo que combina os dois | Um trabalhador que pode pensar e agir |
A maioria dos harnesses operacionais é construída a partir dos mesmos componentes fundamentais, cada um projetado para resolver uma limitação diferente do modelo bruto.
Um prompt do sistema é o conjunto permanente de instruções fornecido ao modelo toda vez que ele é executado, dizendo quem ele é, o que está tentando realizar e quais regras deve seguir. Os prompts do sistema moldam o comportamento, a personalidade e as diretrizes de segurança (guardrails) do agente antes que qualquer entrada do usuário chegue. Prompts mal escritos são uma das causas mais comuns de comportamento inconsistente ou imprevisível.
Ferramentas são funções pré-construídas que o modelo pode chamar para interagir com sistemas externos, como pesquisar na web, consultar um banco de dados, enviar um e-mail, executar código ou chamar uma API. O modelo decide qual ferramenta usar e quando. O harness é o que realmente executa a ferramenta e retorna o resultado para o modelo.
Os desenvolvedores estão se afastando de grandes coleções de ferramentas estritamente definidas. Em vez disso, estão dando aos agentes uma capacidade de uso mais geral: a habilidade de escrever e executar códigos. Isso permite que o modelo crie fluxos de trabalho dinamicamente, em vez de depender de um conjunto fixo de ações predefinidas.
Um sandbox é um espaço de trabalho isolado onde um agente pode executar códigos ou realizar ações sem afetar nada fora desse ambiente. Isso é importante porque executar códigos gerados por agentes diretamente em um sistema real é arriscado.
Ao isolar o ambiente, os sandboxes permitem que os agentes experimentem com segurança e oferecem às equipes um espaço de trabalho contido que elas podem monitorar, redefinir ou encerrar de forma limpa se algo der errado. Eles também possibilitam a execução de muitos agentes em paralelo e em escala.
Um sistema de arquivos oferece ao agente um local para ler e gravar arquivos, como códigos, notas, planos e trabalhos intermediários que persistem entre as sessões.
O armazenamento persistente permite que os agentes acumulem progresso em tarefas de longa duração e colaborem com humanos ou outros agentes por meio de um espaço de trabalho compartilhado de arquivos, e não apenas por mensagens de chat.
Os modelos base não retêm memória além de sua janela de contexto atual. O harness gerencia a memória tanto dentro de uma tarefa quanto entre sessões. À medida que as conversas ficam mais longas, o harness decide o que permanece ativo e o que é resumido, um processo conhecido como compactação de contexto.
Na prática, isso significa cortar partes mais antigas da conversa para que o modelo não fique sobrecarregado à medida que o contexto aumenta. Entre as sessões, o harness armazena e recupera o histórico relevante. Isso permite que o agente retome o trabalho ciente do que já foi feito.
Bons harnesses não apenas deixam o modelo agir — eles verificam o trabalho. Após cada ação, the harness pode executar testes, inspecionar resultados ou solicitar que o modelo revise sua própria saída antes de continuar.
Esses loops de feedback são o que permite que os agentes lidem com tarefas longas ou complexas de maneira confiável, tentando repetidamente o trabalho, verificando resultados, detectando erros e corrigindo o rumo automaticamente.
Guardrails são regras integradas ao harness que bloqueiam ações inseguras ou não aprovadas. Exemplos incluem exigir aprovação humana antes que um agente exclua um arquivo, envie uma mensagem ao cliente ou faça uma compra.
Um tipo comum de guardrail é o controle de intervenção humana (human-in-the-loop), no qual uma pessoa revisa ou aprova certas ações antes que elas sejam executadas. Em ambientes corporativos, esses pontos de verificação de aprovação costumam ser obrigatórios.
Observabilidade significa ser capaz de ver o que o agente fez, por que tomou cada decisão e onde as coisas deram errado por meio de logs, rastreamentos (traces) e dashboards. Para desenvolvedores, a observabilidade ajuda a diagnosticar e depurar o comportamento do agente. Para equipes corporativas, geralmente é um requisito de conformidade. Setores regulamentados precisam de trilhas de auditoria que mostrem exatamente o que um agente fez e sob a autoridade de quem.
Em escala, a observabilidade também alimenta a infraestrutura de avaliação — sistemas que medem continuamente se os agentes estão funcionando corretamente em milhares de execuções, e não apenas em demonstrações.
À medida que os modelos convergem em capacidade bruta, o harness determina cada vez mais o desempenho. Memória, orquestração de ferramentas, loops de feedback e guardrails impulsionam a confiabilidade. Em benchmarks públicos, o mesmo modelo pode se posicionar significativamente melhor ou pior dependendo inteiramente de como o harness é construído. Para muitas tarefas com fluxos de trabalho intensos, um harness forte em torno de um modelo intermediário pode superar o desempenho de um harness fraco em torno de um modelo mais forte.
O impacto é mensurável. Quando a Databricks combinou o GPT-5.5 com o OfficeQA Pro Agent Harness — projetado para tarefas complexas de documentos corporativos em várias partes — ele obteve uma pontuação de 52,63%, em comparação com os 36,10% do GPT-5.4, reduzindo os erros quase pela metade. O modelo melhorou, mas o harness foi o que fez com que essa melhoria se traduzisse em um desempenho de produção confiável. Os frameworks de avaliação de agentes de AI ajudam as equipes a medir exatamente isso: se o design do harness está transformando a capacidade do modelo em resultados consistentes e confiáveis.
A engenharia de harness é a fase mais recente de uma mudança mais ampla na forma como os desenvolvedores trabalham com sistemas de AI. À medida que os modelos se tornaram mais capazes, o foco gradualmente se expandiu. Ele mudou da escrita de prompts melhores para o controle de quais informações o modelo visualiza e, finalmente, para o design de todo o sistema ao redor do modelo.
| Disciplina | Foco principal | Principal artefato | Aplicações típicas |
|---|---|---|---|
| Engenharia de prompt | Redigir a entrada para obter uma resposta melhor | Um prompt bem elaborado | Primeiras aplica ções de LLM |
| Engenharia de contexto | Fazer a curadoria de quais informações o modelo vê e quando | Pipelines de recuperação, design de memória | Aplicações da era RAG |
| Engenharia de harness | Projetar todo o sistema ao redor do modelo — ferramentas, sandboxes, loops, guardrails | O próprio harness | Sistemas agênticos e fluxos de trabalho autônomos |
Tanto a engenharia de prompt quanto a de contexto fazem parte da engenharia de harness. O harness é o sistema ao redor do modelo; os prompts e o contexto são partes desse sistema.
Os harnesses são poderosos, mas é fácil cometer erros ao criá-los. A maioria das falhas operacionais dos agentes vem do harness, e não do modelo em si. Estes são alguns dos problemas mais comuns que as equipes enfrentam em sistemas do mundo real:
A maioria das empresas não está criando apenas um único agente de AI. Elas estão criando dezenas deles em diferentes equipes, fluxos de trabalho e modelos subjacentes. Sem uma abordagem consistente para o design do harness, isso gera rapidamente a proliferação desordenada de agentes (agent sprawl): agentes desconectados que nenhum grupo consegue governar, avaliar ou melhorar de forma confiável.
À medida que os agentes se aproximam dos fluxos de trabalho de produção, as equipes precisam de controle centralizado sobre o que os agentes podem acessar, quais ações podem realizar e como seus resultados são avaliados. Elas também precisam de auditabilidade, observabilidade e flexibilidade para trocar os modelos subjacentes sem precisar reconstruir os sistemas ao redor deles.
Plataformas como o Databricks Agent Bricks são projetadas com base nessa abordagem de plano de controle para harnesses de agentes. Em vez de cada equipe criar e manter sua própria infraestrutura de harness, as organizações contam com uma camada compartilhada para criar, implantar, governar e avaliar agentes baseados em dados corporativos.
A governança é aplicada por meio do Unity Catalog, enquanto a observabilidade e a avaliação são gerenciadas pelo MLflow. O Agent Bricks também funciona com modelos da OpenAI, Anthropic, Google e ecossistemas de código aberto, ajudando as equipes a reduzir a dependência de um único provedor enquanto avaliam o desempenho em relação a benchmarks criados com seus próprios dados.
À medida que os modelos de AI se tornam melhores em planejamento, raciocínio em várias etapas e correção de erros, parte do trabalho atualmente realizado pelos harnesses provavelmente se aproximará do próprio modelo. Os modelos serão mais capazes de manter o foco na tarefa, verificar o próprio trabalho e se recuperar de erros sem a necessidade de tanta coordenação externa.
A engenharia de harness não deve desaparecer. Ambientes de execução, orquestração de ferramentas, guardrails, observabilidade e loops de feedback ainda determinam se um modelo pode operar de maneira confiável em sistemas reais. Ferramentas melhores, espaços de trabalho mais limpos e proteções mais fortes tornam qualquer modelo mais útil, independentemente de quão capaz ele se torne por si só.
Duas ideias emergentes ajudam a ilustrar para onde a área pode estar caminhando:
O modelo contém a inteligência. O harness transforma essa inteligência em trabalho confiável. Enquanto isso for verdade, o design do harness continuará sendo importante.
Qual é a diferença entre um agente de AI e um harness de AI?
Um agente de AI é o sistema de trabalho completo composto tanto pelo modelo quanto pelo harness. O harness é a camada de execução que fornece ferramentas, memória, guardrails e controle de fluxo de trabalho. Você interage com o agente. O harness faz tudo funcionar.
Qual é a diferença entre engenharia de harness e engenharia de prompt?
A engenharia de prompt se concentra na criação de entradas melhores para o modelo. A engenharia de harness se concentra no design de todo o sistema ao redor dele, incluindo ferramentas, ambientes de execução, controles de segurança e loops de feedback. A engenharia de prompt é uma parte de uma arquitetura de harness maior.
Quais são os componentes principais de um harness de agente de AI?
A maioria dos harnesses de produção inclui prompts do sistema, ferramentas, sandboxes, gerenciamento de memória, loops de feedback, guardrails e observabilidade. Cada um resolve uma limitação diferente do modelo bruto.
Por que o harness importa mais do que o modelo?
À medida que os modelos de AI se tornam mais capazes, a qualidade do harness molda cada vez mais o desempenho no mundo real. Harnesses robustos melhoram a confiabilidade por meio de um melhor gerenciamento de memória, orquestração de ferramentas, validação e guardrails. Em muitos sistemas em produção, atualizar apenas o modelo gera ganhos menores se a infraestrutura continuar instável.
Como as empresas governam harnesses de agentes de AI em escala?
Uma governança corporativa eficaz exige controle centralizado sobre o acesso a dados, sistemas de avaliação, auditabilidade, controles de custos e suporte para múltiplos modelos subjacentes. Plataformas como o Databricks Agent Bricks abordam esses desafios por meio de uma infraestrutura compartilhada de governança, observabilidade e avaliação com tecnologia do Unity Catalog e do MLflow.
O harness é o que transforma um modelo de linguagem em um agente funcional, fornecendo as ferramentas, a memória, os guardrails e os loops de feedback que tornam o trabalho confiável possível. Harnesses robustos tornam modelos comuns úteis. Harnesses fracos desperdiçam os melhores modelos. À medida que os agentes de AI entram em produção, o design do harness está se tornando o local onde grande parte do trabalho de engenharia — e grande parte do valor — agora reside.
Veja como o Databricks Agent Bricks ajuda você a criar, governar e melhorar continuamente agentes de AI de nível de produção com seus próprios dados.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.