2 de julho de 2024

Anunciando o Agent Bricks Custom Agents e a Avaliação de Agentes

Crie Aplicativos de Geração Aumentada por Recuperação e Agentes de Qualidade de Produção

por Eric Peter, Akhil Gupta, Mani Parkhe, Alkis Polyzotis, Chenen Liang, Maheswaran Venkatachalam, Michael Carbin e Niall Turbitt

Databricks anunciou a prévia pública do Agent Bricks Custom Agents e do Agent Evaluation, juntamente com nosso Generative AI Cookbook no Data + AI Summit 2024.

Essas ferramentas foram projetadas para ajudar os desenvolvedores a criar e implantar aplicações de alta qualidade baseadas em Agentes e Retrieval Augmented Generation (RAG) dentro da Databricks Data Intelligence Platform.

Desafios na criação de aplicações de IA Generativa de alta qualidade

Embora a criação de um prova de conceito para sua aplicação GenAI seja relativamente simples, entregar uma aplicação de alta qualidade tem se mostrado um desafio para um grande número de clientes. Para atender ao padrão de qualidade exigido para aplicações voltadas ao cliente, a saída da IA deve ser precisa, segura e governada. Para atingir esse nível de qualidade, os desenvolvedores lutam para

Escolher as métricas corretas para avaliar a qualidade da aplicação
Coletar feedback humano de forma eficiente para medir a qualidade da aplicação
Identificar a causa raiz dos problemas de qualidade
Iterar rapidamente para melhorar a qualidade da aplicação antes de implantá-la em produção

Apresentando Agent Bricks Custom Agents e Agent Evaluation

Desenvolvidos em colaboração com a equipe de Pesquisa de IA da Databricks, o Agent Framework e o Agent Evaluation oferecem várias funcionalidades criadas especificamente para abordar esses desafios:

Obtenha feedback humano rapidamente - O Agent Evaluation permite que você defina como são as respostas de alta qualidade para sua aplicação GenAI, convidando especialistas no assunto de sua organização para revisar sua aplicação e fornecer feedback sobre a qualidade das respostas, mesmo que não sejam usuários Databricks.

Avaliação fácil da sua aplicação GenAI - O Agent Evaluation fornece um conjunto de métricas, desenvolvidas em colaboração com a Pesquisa de IA da Databricks, para medir a qualidade da sua aplicação. Ele registra automaticamente as respostas e o feedback de humanos em uma tabela de avaliação e permite que você analise rapidamente os resultados para identificar potenciais problemas de qualidade. Nossos juízes de IA fornecidos pelo sistema avaliam essas respostas em critérios comuns como precisão, alucinação, nocividade e utilidade, identificando as causas raiz de quaisquer problemas de qualidade. Esses juízes são calibrados usando feedback de seus especialistas, mas também podem medir a qualidade sem nenhum rótulo humano.

Você pode então experimentar e ajustar várias configurações de sua aplicação usando o Agent Framework para resolver esses problemas de qualidade, medindo o impacto de cada alteração na qualidade do seu aplicativo. Assim que atingir seu limite de qualidade, você pode usar as métricas de custo e latência do Agent Evaluation para determinar o trade-off ideal entre qualidade/custo/latência.

Fluxo de Trabalho de Desenvolvimento Rápido e de Ponta a Ponta - O Agent Framework é integrado ao MLflow e permite que os desenvolvedores usem as APIs padrão do MLflow, como log_model e mlflow.evaluate, para registrar uma aplicação GenAI e avaliar sua qualidade. Uma vez satisfeitos com a qualidade, os desenvolvedores podem usar o MLflow para implantar essas aplicações em produção e obter feedback dos usuários para melhorar ainda mais a qualidade. O Agent Framework e o Agent Evaluation se integram ao MLflow e à plataforma Data Intelligence para fornecer um caminho totalmente pavimentado para construir e implantar aplicações GenAI.

Gerenciamento do Ciclo de Vida da Aplicação - O Agent Framework fornece um SDK simplificado para gerenciar o ciclo de vida de aplicações baseadas em agentes, desde o gerenciamento de permissões até a implantação com o Databricks Model Serving.

Para ajudar você a começar a criar aplicações de alta qualidade usando o Agent Framework e o Agent Evaluation, o Generative AI Cookbook é um guia definitivo que demonstra cada etapa para levar seu aplicativo do POC à produção, explicando as mais importantes opções de configuração e abordagens que podem aumentar a qualidade da aplicação.

Construindo um agente RAG de alta qualidade

Para entender essas novas funcionalidades, vamos percorrer um exemplo de construção de uma aplicação de agente de alta qualidade usando o Agent Framework e melhorando sua qualidade usando o Agent Evaluation. Você pode consultar o código completo deste exemplo e exemplos mais avançados no Generative AI Cookbook aqui.

Neste exemplo, vamos construir e implantar uma aplicação RAG simples que recupera trechos relevantes de um índice de vetores pré-criado e os resume como resposta a uma consulta. Você pode construir a aplicação RAG usando qualquer framework, incluindo código Python nativo, mas neste exemplo, estamos usando Langchain.

A primeira coisa que queremos fazer é alavancar o MLflow para habilitar rastreamentos e implantar a aplicação. Isso pode ser feito adicionando três linhas simples ao código da aplicação (acima) que permitem ao Agent Framework fornecer rastreamentos e uma maneira fácil de observar e depurar a aplicação.

tracing

O Rastreamento MLflow fornece observabilidade para sua aplicação durante o desenvolvimento e a produção

O próximo passo é registrar a aplicação GenAI no Unity Catalog e implantá-la como um prova de conceito para obter feedback dos stakeholders usando o aplicativo de revisão do Agent Evaluation.

Você pode compartilhar o link do navegador com os stakeholders e começar a obter feedback imediatamente! O feedback é armazenado como tabelas delta em seu Unity Catalog e pode ser usado para construir um conjunto de dados de avaliação.

review-app

Use o aplicativo de revisão para coletar feedback dos stakeholders sobre seu POC

A Corning é uma empresa de ciência de materiais - nossos vidros e cerâmicas são usados em muitas aplicações industriais e científicas, então entender e agir sobre nossos dados é essencial. Construímos um assistente de pesquisa de IA usando o Databricks Agent Bricks Custom Agents para indexar centenas de milhares de documentos, incluindo dados do escritório de patentes dos EUA. Ter nosso assistente com LLM respondendo a perguntas com alta precisão era extremamente importante para nós - dessa forma, nossos pesquisadores poderiam encontrar e avançar nas tarefas em que estavam trabalhando. Para implementar isso, usamos o Databricks Agent Bricks Custom Agents para construir uma solução de IA Generativa Hi Hello, aumentada com os dados do escritório de patentes dos EUA. Ao alavancar a Databricks Data Intelligence Platform, melhoramos significativamente a velocidade de recuperação, a qualidade da resposta e a precisão. — Denis Kamotsky, Principal Software Engineer, Corning

Assim que você começar a receber feedback para criar seu conjunto de dados de avaliação, poderá usar o Agent Evaluation e os AI judges integrados para revisar cada resposta em relação a um conjunto de critérios de qualidade usando métricas pré-construídas:

Correção da resposta - a resposta do aplicativo está correta?
Fundamentação - a resposta do aplicativo é baseada nos dados recuperados ou o aplicativo está alucinando?
Relevância da recuperação - os dados recuperados são relevantes para a pergunta do usuário?
Relevância da resposta - a resposta do aplicativo está no tópico da pergunta do usuário?
Segurança - a resposta do aplicativo contém algum conteúdo prejudicial?

As métricas agregadas e a avaliação de cada pergunta no conjunto de avaliação são registradas no MLflow. Cada julgamento de LLM é apoiado por uma justificativa escrita do porquê. Os resultados desta avaliação podem ser usados para identificar as causas raiz dos problemas de qualidade. Consulte as seções do Cookbook Avalie a qualidade do POC e Identifique a causa raiz dos problemas de qualidade para um guia detalhado.

métricas agregadas

Visualize as métricas agregadas do Agent Evaluation dentro do MLflow

Como um fabricante global líder, a Lippert utiliza dados e IA para construir produtos altamente projetados, soluções personalizadas e as melhores experiências possíveis. O Agent Bricks Custom Agents tem sido um divisor de águas para nós porque nos permitiu avaliar os resultados de nossos aplicativos GenAI e demonstrar a precisão de nossos resultados, mantendo o controle total sobre nossas fontes de dados. Graças à Databricks Data Intelligence Platform, estou confiante em implantar em produção. — Kenan Colson, VP Data & AI, Lippert

Você também pode inspecionar cada registro individual em seu conjunto de dados de avaliação para entender melhor o que está acontecendo ou usar o rastreamento do MLflow para identificar potenciais problemas de qualidade.

registro individual

Inspecione cada registro individual em seu conjunto de avaliação para entender o que está acontecendo

Assim que você iterar na qualidade e estiver satisfeito com ela, poderá implantar o aplicativo em seu espaço de trabalho de produção com esforço mínimo, pois o aplicativo já está registrado no Unity Catalog.

O Agent Bricks Custom Agents nos permitiu experimentar rapidamente LLMs aumentados, com a segurança de saber que quaisquer dados privados permanecem sob nosso controle. A integração perfeita com MLflow e Model Serving garante que nossa equipe de Engenharia de ML possa escalar de POC para produção com complexidade mínima. — Ben Halsall, Analytics Director, Burberry

Esses recursos são estreitamente integrados ao Unity Catalog para fornecer governança, ao MLflow para fornecer linhagem e gerenciamento de metadados, e ao LLM Guardrails para fornecer segurança.

A Ford Direct está na vanguarda da transformação digital da indústria automotiva. Somos o hub de dados para concessionárias Ford e Lincoln, e precisávamos criar um chatbot unificado para ajudar nossos revendedores a avaliar seu desempenho, inventário, tendências e métricas de engajamento do cliente. O Databricks Agent Bricks Custom Agents nos permitiu integrar nossos dados proprietários e documentação em nossa solução de IA Generativa que usa RAG. A integração do Mosaic AI com Databricks Delta Tables e Unity Catalog tornou a atualização em tempo real de nossos índices vetoriais perfeita à medida que nossos dados de origem são atualizados, sem a necessidade de tocar em nosso modelo implantado. — Tom Thomas, VP of Analytics, FordDirect

Preços

Agent Evaluation – preço por Solicitação de Juiz
Databricks Model Serving – servir agentes; preço baseado nas taxas do Databricks Model Serving

Para detalhes adicionais, consulte nosso site de preços.

Próximos Passos

O Agent Framework e o Agent Evaluation são as melhores maneiras de construir Aplicações de Geração Aumentada por Recuperação e Agentes de qualidade de produção. Estamos animados para que mais clientes o experimentem e nos deem seu feedback. Para começar, consulte os seguintes recursos:

Página de documentação do Agent Framework (AWS | Azure)
Notebook de demonstração do Agent Framework e Agent Evaluation demo notebook
Generative AI Cookbook
Replays de sessões de breakout do Data and AI Summit
- Mergulhe na Construção de Aplicações Gen AI de Qualidade de Produção
- Métodos para Avaliar a Qualidade do seu Aplicativo GenAI
Anúncios de GenAI do Data and AI Summit

Para ajudar você a integrar esses recursos em seu aplicativo, o Generative AI Cookbook fornece código de exemplo que demonstra como seguir um fluxo de trabalho de desenvolvimento orientado por avaliação usando o Agent Framework e o Agent Evaluation para levar seu aplicativo de POC a produção. Além disso, o Cookbook descreve as opções e abordagens de configuração mais relevantes que podem aumentar a qualidade do aplicativo.

Experimente o Agent Framework e o Agent Evaluation hoje mesmo executando nosso notebook de demonstração ou seguindo o Cookbook para construir um aplicativo com seus dados.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs