No ano passado, a promessa da inteligência de dados - construir IA que pode raciocinar sobre seus dados - chegou com o Mosaic AI, uma plataforma abrangente para construir, avaliar, monitorar e proteger sistemas de IA. Desde então, milhares de nossos clientes enviaram inteligência de dados para produção, construindo agentes específicos do domínio alimentados por seus dados empresariais:
No entanto, a imaturidade da tecnologia gerativa significava que a jornada para a produção ainda era desafiadora. Construir agentes de alta qualidade era frequentemente muito complexo, por várias razões:
Com base em nossas experiências anteriores trabalhando com clientes para implementar IA em produção, passamos o último ano repensando como construir agentes. Hoje, estamos apresentando o Agent Bricks, um novo produto que muda a forma como as empresas desenvolvem agentes específicos para cada domínio. Em vez de gerenciar a complexidade avassaladora do desenvolvimento de agentes, as equipes podem se concentrar no que mais importa: definir o propósito de seu agente e fornecer orientação estratégica sobre a qualidade por meio de feedback em linguagem natural. O Agent Bricks cuida do resto, gerando automaticamente conjuntos de avaliação e otimizando a qualidade automaticamente.
Veja como funciona:
Com o Agente Bricks, elimine suposições através de avaliações automáticas. Nós otimizamos automaticamente os ajustes, para que você possa confiar no desempenho do seu agente e saber que está operando com a máxima eficiência. O resultado final é que agora você pode enviar agentes de alta qualidade e custo eficiente para produção. O Agente Bricks é otimizado para casos de uso comuns da indústria, incluindo extração de informações estruturadas, assistência de conhecimento confiável, transformação de texto personalizado e sistemas multi-agentes orquestrados.
O Agent Bricks é singularmente capaz de medir, construir e melhorar continuamente a qualidade. Com a construção de agentes conversacionais sobre documentos, por exemplo, medimos a qualidade média em vários benchmarks de perguntas e respostas. Comparado a outros produtos nesta área, o Agent Bricks construiu agentes de qualidade significativamente superior (Figura 1). Não só isso, com a capacidade de aprendizado contínuo, o desempenho continua a melhorar ao longo do tempo.
Para a compreensão de documentos, o Agent Bricks constrói sistemas de maior qualidade e menor custo, em comparação com os LLMs proprietários otimizados por prompts (Figura 2). Podemos alcançar um sistema de maior qualidade em um benchmark de análise de documentos, mas com um custo até 10 vezes menor.
Além desses benchmarks, nossos clientes também conseguem construir agentes de qualidade com o Agent Bricks:
"O Agent Bricks nos permitiu dobrar nossa precisão médica em relação aos LLMs comerciais padrão, enquanto atendia aos altos padrões internos da Flo Health para precisão clínica, segurança, privacidade e segurança."— Roman Bugaev, CTO, Flo Health
“O Agent Bricks superou significativamente nossa implementação original de código aberto em ambas as métricas de precisão de avaliação do LLM-como-juiz e humana.”— Joel Wasson, Dados Corporativos & Análise, Hawaiian Electric
“[Agente Bricks] acelerou nossas capacidades de IA em toda a empresa, nos guiando através de melhorias de qualidade no loop de feedback e identificando opções de menor custo que têm o mesmo desempenho.”— Chris Rishnick, Diretor de IA, Lippert
Agent Bricks é capaz de alcançar esses resultados porque é alimentado pela pesquisa proveniente de nossa equipe de pesquisa em IA Mosaic da Databricks. Há um zoológico de métodos para melhorar a qualidade do agente, e novas pesquisas são lançadas em um ritmo vertiginoso. Nossa equipe tanto cura pesquisas existentes quanto desenvolve novas inovações que são então usadas pelo Agente Bricks durante a fase de avaliação e otimização automática. Embora tenhamos um conjunto expansivo de métodos, hoje estamos animados para destacar uma de nossas inovações - Aprendizado de Agente a partir de Feedback Humano (ALHF).
Aprendizado de Agente a partir de Feedback Humano (ALHF)
Um desafio chave para a qualidade é a capacidade de direcionar o comportamento do agente a partir do feedback. Isso é particularmente difícil porque o feedback geralmente é fornecido apenas com um sinal de positivo ou negativo, e não está claro quais dos muitos componentes e ajustes dentro de um sistema de agente precisam ser ajustados para respeitar o feedback. A abordagem atual, que é colocar todas as instruções em um único prompt LLM massivo, é frágil e não se generaliza para um sistema de agente mais complexo.
Com o ALHF, resolvemos isso com duas abordagens. Primeiro, somos capazes de receber o rico contexto da orientação em linguagem natural (por exemplo, ignore todos os dados antes de maio de 1990). Segundo, com base nesta orientação em linguagem natural, nossos algoritmos traduzem inteligentemente a orientação em otimizações técnicas - refinando o algoritmo de recuperação, aprimorando prompts, filtrando o banco de dados de vetores, ou até mesmo modificando o padrão agente.
Esta abordagem democratiza o desenvolvimento de agentes, permitindo que especialistas do domínio contribuam diretamente para a melhoria do sistema sem uma profunda expertise técnica em infraestrutura de IA.
"A capacidade de avaliar e melhorar continuamente a precisão é uma capacidade chave para a Experian, especialmente em uma indústria altamente regulamentada."— James Lin, Chefe de Inovação em IA ML, Experian
Os primeiros clientes já estão experimentando a transformação que o Agente Bricks proporciona - melhorias de precisão que dobram os benchmarks de desempenho e reduzem os prazos de desenvolvimento de semanas para um único dia. Mais importante, eles estão alcançando algo que parecia impossível há apenas alguns meses: sistemas de IA sustentáveis e escaláveis que proporcionam valor comercial consistente.
Agent Bricks representa mais do que uma evolução nas ferramentas - é uma mudança fundamental em direção ao desenvolvimento de IA madura e pronta para produção. À medida que os sistemas de agentes se tornam cada vez mais centrais para as operações empresariais, as abordagens de "verificação de vibe" do passado simplesmente não vão escalar. As organizações precisam de uma abordagem robusta e sistemática para construir e otimizar agentes inteligentes que possam lidar com a complexidade e os requisitos das aplicações de negócios do mundo real.
Muitos clientes da Databricks já construíram Agentes de IA com o Agent Bricks, e todos estamos ansiosos para ver o que eles podem fazer no futuro.
Assista o vídeo com Experian e Flo Health
“Com o Agent Bricks, nossas equipes conseguiram analisar mais de 400.000 documentos de ensaios clínicos e extrair pontos de dados estruturados, sem escrever uma única linha de código. Em menos de 60 minutos, tínhamos um agente funcionando que pode transformar dados não estruturados complexos em dados utilizáveis para análises.”— Joseph Roemer, Chefe de Dados & IA, IT Comercial, AstraZeneca
“Agent Bricks nos permitiu construir um agente custo-efetivo em que poderíamos confiar em produção. Com uma avaliação personalizada, desenvolvemos com confiança um agente de extração de informações que analisou calendários legislativos não estruturados, economizando 30 dias de otimização manual por tentativa e erro.”— Ryan Jockers, Diretor Assistente de Relatórios e Análises no Sistema Universitário de Dakota do Norte
Pronto para diminuir a diferença entre "qualidade de demonstração" e "qualidade de produção"? Agent Bricks agora está disponível em beta.
Introdução
O futuro da IA empresarial não é sobre gerenciar a complexidade - é sobre focar nos resultados que importam enquanto o Agent Bricks cuida do resto.
(This blog post has been translated using AI-powered tools) Original Post