Aprendizagem por Reforço para Agentes Corporativos
Para ver o relatório técnico completo, clique aqui. Interessado em experimentar o RL personalizado da Databricks em seu agente corporativo? Clique aqui.
A capacidade de raciocínio aprimorada dos modelos atuais levou a uma explosão de agentes implantados para o trabalho de conhecimento, como escrever código, fazer perguntas sobre dados corporativos e automatizar fluxos de trabalho comuns. Embora os modelos usados em tarefas corporativas sejam muito poderosos, eles também são extremamente caros, e os custos de inferência começaram a crescer de forma insustentável para muitos casos de uso. Neste post e no relatório técnico correspondente, descrevemos nossa experiência usando a aprendizagem por reforço (RL) para criar modelos personalizados para potencializar casos de uso que são uma parte fundamental do nosso produto Agent Bricks. Este exemplo demonstra que, a custos relativamente baixos, é possível criar modelos personalizados que dominam estritamente os modelos de fronteira nas três dimensões críticas: custo de inferência, latência e qualidade. Nossas descobertas são consistentes com outras observações do setor, como o modelo Composer da Cursor, em que a personalização baseada em RL conseguiu melhorar drasticamente tanto a velocidade quanto a qualidade em comparação com as alternativas.
KARL: um agente de conhecimento mais rápido, mais forte e mais barato para usuários da Databricks
