Ir para o conteúdo principal

Conheça o KARL: um agente mais rápido para o conhecimento corporativo, impulsionado por RL personalizado


Compartilhe este post
Meet KARL: A Faster Agent for Enterprise Knowledge, powered by custom RL

Aprendizagem por Reforço para Agentes Corporativos                  

Para ver o relatório técnico completo, clique aqui. Interessado em experimentar o RL personalizado da Databricks em seu agente corporativo? Clique aqui.

A capacidade de raciocínio aprimorada dos modelos atuais levou a uma explosão de agentes implantados para o trabalho de conhecimento, como escrever código, fazer perguntas sobre dados corporativos e automatizar fluxos de trabalho comuns. Embora os modelos usados em tarefas corporativas sejam muito poderosos, eles também são extremamente caros, e os custos de inferência começaram a crescer de forma insustentável para muitos casos de uso. Neste post e no relatório técnico correspondente, descrevemos nossa experiência usando a aprendizagem por reforço (RL) para criar modelos personalizados para potencializar casos de uso que são uma parte fundamental do nosso produto Agent Bricks. Este exemplo demonstra que, a custos relativamente baixos, é possível criar modelos personalizados que dominam estritamente os modelos de fronteira nas três dimensões críticas: custo de inferência, latência e qualidade. Nossas descobertas são consistentes com outras observações do setor, como o modelo Composer da Cursor, em que a personalização baseada em RL conseguiu melhorar drasticamente tanto a velocidade quanto a qualidade em comparação com as alternativas.

KARL: um agente de conhecimento mais rápido, mais forte e mais barato para usuários da Databricks

KARL: um agente de conhecimento mais rápido, mais forte e mais barato para usuários da Databricks

O modelo que treinamos, que chamamos de KARL, aborda uma capacidade corporativa crítica, o raciocínio fundamentado: responder a perguntas pesquisando documentos, apurando fatos, cruzando informação e raciocinando ao longo de dezenas ou centenas de os passos. O raciocínio fundamentado é necessário para vários produto Databricks, como o Agent Bricks Knowledge Assistant. Diferentemente de matemática e programação, a tarefa de raciocínio fundamentado é difícil de verificar – muitas vezes não há uma única resposta correta. Em situações como essa, orientar a aprendizagem por reforço para boas soluções é especialmente difícil.

Usando as técnicas de RL e a infraestrutura desenvolvidasna Databricks, o KARL iguala o desempenho dos modelos proprietários mais poderosos do mundo por uma fração do custo de serviço e da latência, inclusive em novas tarefas de raciocínio fundamentado que ele nunca tinha visto. ( Consulte o relatório técnico para obter todos os detalhes.) Fizemos isso com apenas alguns milhares de horas de GPU de treinamento e dados totalmente sintéticos. 

Em testes internos com usuários humanos, o KARL forneceu respostas melhores e mais abrangentes do que nossos produtos existentes e os mais recentes modelos de fronteira. Esta pesquisa está sendo incorporada aos agentes Databricks que você usa hoje, como o Agent Bricks, fundamentando as respostas em seus dados não estruturados e estruturados no Databricks Lakehouse.

Um pipeline de RL reutilizável para clientes da Databricks

Temos o prazer de anunciar que os mesmos pipelines e infraestrutura de RL que usamos para criar o KARL (e outros agentes sobre os quais falaremos em breve) agora estão disponíveis para os clientes da Databricks que buscam melhorar o desempenho do modelo e reduzir os custos de suas cargas de trabalho de agentes de alto volume. Quase todas as tarefas corporativas do mundo real são difíceis de verificar, então o KARL abre caminho – não apenas para uma melhor experiência para os usuários da Databricks – mas para que nossos clientes criem seus próprios modelos de RL personalizados para seus agentes populares. Nosso private preview do RL Personalizado, apoiado pelo Serverless GPU Compute, permite que você use a infraestrutura do KARL para criar uma versão mais eficiente e específica do domínio para o seu agente. Se você tem um agente de IA que está escalando rapidamente e tem interesse em otimizá-lo com RL, inscreva-se aqui para manifestar seu interesse neste preview.

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original