No ano passado, a promessa da inteligência de dados – construir IA que possa raciocinar sobre seus dados – chegou com o Mosaic AI, uma plataforma abrangente para construir, avaliar, monitorar e proteger sistemas de IA. Desde então, milhares de nossos clientes implementaram inteligência de dados em produção, construindo agentes específicos de domínio alimentados por seus dados corporativos:
No entanto, a imaturidade da tecnologia generativa significava que a jornada para a produção ainda era desafiadora. Construir agentes de alta qualidade era frequentemente muito complexo, por várias razões:
Com base em nossas experiências anteriores trabalhando com clientes para implementar IA em produção, passamos o último ano repensando como construir agentes. Hoje, estamos introduzindo o Agent Bricks, um novo produto que muda a forma como as empresas desenvolvem agentes específicos de domínio. Em vez de gerenciar a complexidade avassaladora do desenvolvimento de agentes, as equipes podem se concentrar no que é mais importante: definir o propósito de seu agente e fornecer orientação estratégica sobre qualidade por meio de feedback em linguagem natural. O Agent Bricks cuida do resto, gerando automaticamente suítes de avaliação e auto-otimizando a qualidade.

Veja como funciona:
Avaliação automática: O Agent Bricks criará automaticamente benchmarks de avaliação específicos para sua tarefa, o que pode envolver a geração sintética de novos dados ou a construção de juízes LLM personalizados.
Com o Agent Bricks, elimine suposições por meio de avaliações automáticas. Nós auto-otimizamos os controles, para que você possa confiar no desempenho do seu agente e saber que está operando com eficiência máxima. O resultado final é que você agora pode implementar agentes de alta qualidade e custo-efetivo em produção. O Agent Bricks é otimizado para casos de uso comuns da indústria, incluindo extração de informações estruturadas, assistência confiável de conhecimento, transformação de texto personalizada e sistemas orquestrados de múltiplos agentes.
O Agent Bricks é exclusivamente capaz de medir, construir e melhorar continuamente a qualidade. Ao construir agentes conversacionais sobre documentos, por exemplo, medimos a qualidade média em vários benchmarks de Q&A. Comparado a outros produtos neste espaço, o Agent Bricks construiu agentes significativamente de maior qualidade (Figura 1). Não só isso, com a capacidade de aprendizado contínuo, o desempenho continua a melhorar ao longo do tempo.
Para compreensão de documentos, o Agent Bricks constrói sistemas de maior qualidade e menor custo, em comparação com LLMs proprietários otimizados por prompt (Figura 2). Podemos alcançar um sistema de maior qualidade em um benchmark de análise de documentos, mas com custo até 10x menor.
Além desses benchmarks, nossos clientes também conseguem construir agentes de qualidade com o Agent Bricks:
"O Agent Bricks nos permitiu dobrar nossa precisão médica em relação aos LLMs comerciais padrão, ao mesmo tempo em que atendemos aos altos padrões internos da Flo Health para precisão clínica, segurança, privacidade e proteção." — Roman Bugaev, CTO, Flo Health
“O Agent Bricks superou significativamente nossa implementação original de código aberto em métricas de precisão de LLM-como-juiz e avaliação humana.” — Joel Wasson, Enterprise Data & Analytics, Hawaiian Electric
“[Agent Bricks] acelerou nossas capacidades de IA em toda a empresa, guiando-nos através de melhorias de qualidade no loop de feedback e identificando opções de menor custo que têm o mesmo desempenho. ” — Chris Nishnick, Diretor de IA, Lippert
O Agent Bricks consegue alcançar esses resultados porque é alimentado pela pesquisa de nossa equipe de Pesquisa Mosaic AI da Databricks. Existe um zoológico de métodos para melhorar a qualidade do agente, e novas pesquisas são lançadas em um ritmo vertiginoso. Nossa equipe tanto curates pesquisas existentes quanto desenvolve novas inovações que são então usadas pelo Agent Bricks durante a fase de avaliação e otimização automática. Embora tenhamos um conjunto expansivo de métodos, hoje estamos entusiasmados em destacar uma de nossas inovações – Aprendizado de Agente a partir de Feedback Humano (ALHF).
Aprendizado de Agente a partir de Feedback Humano (ALHF)
Um desafio chave para a qualidade é a capacidade de direcionar o comportamento do agente a partir do feedback. Isso é particularmente difícil porque o feedback geralmente é fornecido apenas com um polegar para cima ou para baixo, e não está claro quais dos muitos componentes e controles dentro de um sistema de agente precisam ser ajustados para respeitar o feedback. A abordagem atual, que é empacotar todas as instruções em um prompt LLM massivo, é frágil e não se generaliza para um sistema de agente mais complexo.
Com o ALHF, resolvemos isso com duas abordagens. Primeiro, somos capazes de receber o rico contexto de orientação em linguagem natural (por exemplo, ignorar todos os dados antes de maio de 1990). Segundo, com base nessa orientação em linguagem natural, nossos algoritmos traduzem inteligentemente a orientação em otimizações técnicas – refinando o algoritmo de recuperação, aprimorando prompts, filtrando o banco de dados vetorial ou até mesmo modificando o padrão agêntico.
Essa abordagem democratiza o desenvolvimento de agentes, permitindo que especialistas de domínio contribuam diretamente para a melhoria do sistema sem profundo conhecimento técnico em infraestrutura de IA.
"A capacidade de avaliar e melhorar continuamente a precisão é uma capacidade chave para a Experian, especialmente em uma indústria altamente regulamentada." — James Lin, Head de Inovação em IA ML, Experian

Os primeiros clientes já estão experimentando a transformação que o Agent Bricks proporciona – melhorias de precisão que dobram os benchmarks de desempenho e reduzem os prazos de desenvolvimento de semanas para um único dia. Mais importante ainda, eles estão alcançando algo que parecia impossível há poucos meses: sistemas de IA sustentáveis e escaláveis que entregam valor de negócio consistente.
O Agent Bricks representa mais do que uma evolução em ferramentas – é uma mudança fundamental em direção ao desenvolvimento de IA maduro e pronto para produção. À medida que os sistemas de agentes se tornam cada vez mais centrais para as operações empresariais, as abordagens de “verificação de vibe” do passado simplesmente não são escaláveis. As organizações precisam de uma abordagem robusta e sistemática para construir e otimizar agentes inteligentes que possam lidar com a complexidade e os requisitos de aplicações de negócios do mundo real.
Muitos clientes da Databricks já construíram Agentes de IA com o Agent Bricks, e todos nós estamos ansiosos para ver o que eles podem fazer no futuro.
Assista ao vídeo com Experian e Flo Health
“Com o Agent Bricks, nossas equipes conseguiram analisar mais de 400.000 documentos de ensaios clínicos e extrair pontos de dados estruturados, sem escrever uma única linha de código. Em pouco menos de 60 minutos, tínhamos um agente funcional que pode transformar dados complexos não estruturados em dados utilizáveis para Análise.” — Joseph Roemer, Head de Dados e IA, TI Comercial, AstraZeneca
“O Agent Bricks nos permitiu construir um agente de custo-efetivo no qual poderíamos confiar em produção. Com avaliação personalizada, desenvolvemos com confiança um agente de extração de informações que analisou calendários legislativos não estruturados, economizando 30 dias de otimização manual de tentativa e erro.” — Ryan Jockers, Diretor Assistente de Relatórios e Análise do North Dakota University System
Pronto para preencher a lacuna entre “qualidade de demonstração” e “qualidade de produção”? O Agent Bricks já está disponível em beta.
Comece agora:
O futuro da IA empresarial não se trata de gerenciar a complexidade – trata-se de focar nos resultados que importam enquanto o Agent Bricks cuida do resto.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
