Databricks anunciou a prévia pública do Mosaic AI Agent Framework e do Agent Evaluation, juntamente com nosso Generative AI Cookbook no Data + AI Summit 2024.
Essas ferramentas foram projetadas para ajudar os desenvolvedores a criar e implantar aplicações de alta qualidade baseadas em Agentes e Retrieval Augmented Generation (RAG) dentro da Databricks Data Intelligence Platform.
Embora a criação de um prova de conceito para sua aplicação GenAI seja relativamente simples, entregar uma aplicação de alta qualidade tem se mostrado um desafio para um grande número de clientes. Para atender ao padrão de qualidade exigido para aplicações voltadas ao cliente, a saída da IA deve ser precisa, segura e governada. Para atingir esse nível de qualidade, os desenvolvedores lutam para
Desenvolvidos em colaboração com a equipe de Pesquisa de IA da Databricks, o Agent Framework e o Agent Evaluation oferecem várias funcionalidades criadas especificamente para abordar esses desafios:
Obtenha feedback humano rapidamente - O Agent Evaluation permite que você defina como são as respostas de alta qualidade para sua aplicação GenAI, convidando especialistas no assunto de sua organização para revisar sua aplicação e fornecer feedback sobre a qualidade das respostas, mesmo que não sejam usuários Databricks.
Avaliação fácil da sua aplicação GenAI - O Agent Evaluation fornece um conjunto de métricas, desenvolvidas em colaboração com a Pesquisa de IA da Databricks, para medir a qualidade da sua aplicação. Ele registra automaticamente as respostas e o feedback de humanos em uma tabela de avaliação e permite que você analise rapidamente os resultados para identificar potenciais problemas de qualidade. Nossos juízes de IA fornecidos pelo sistema avaliam essas respostas em critérios comuns como precisão, alucinação, nocividade e utilidade, identificando as causas raiz de quaisquer problemas de qualidade. Esses juízes são calibrados usando feedback de seus especialistas, mas também podem medir a qualidade sem nenhum rótulo humano.
Você pode então experimentar e ajustar várias configurações de sua aplicação usando o Agent Framework para resolver esses problemas de qualidade, medindo o impacto de cada alteração na qualidade do seu aplicativo. Assim que atingir seu limite de qualidade, você pode usar as métricas de custo e latência do Agent Evaluation para determinar o trade-off ideal entre qualidade/custo/latência.
Fluxo de Trabalho de Desenvolvimento Rápido e de Ponta a Ponta - O Agent Framework é integrado ao MLflow e permite que os desenvolvedores usem as APIs padrão do MLflow, como log_model e mlflow.evaluate, para registrar uma aplicação GenAI e avaliar sua qualidade. Uma vez satisfeitos com a qualidade, os desenvolvedores podem usar o MLflow para implantar essas aplicações em produção e obter feedback dos usuários para melhorar ainda mais a qualidade. O Agent Framework e o Agent Evaluation se integram ao MLflow e à plataforma Data Intelligence para fornecer um caminho totalmente pavimentado para construir e implantar aplicações GenAI.
Gerenciamento do Ciclo de Vida da Aplicação - O Agent Framework fornece um SDK simplificado para gerenciar o ciclo de vida de aplicações baseadas em agentes, desde o gerenciamento de permissões até a implantação com o Databricks Model Serving.
Para ajudar você a começar a criar aplicações de alta qualidade usando o Agent Framework e o Agent Evaluation, o Generative AI Cookbook é um guia definitivo que demonstra cada etapa para levar seu aplicativo do POC à produção, explicando as mais importantes opções de configuração e abordagens que podem aumentar a qualidade da aplicação.
Para entender essas novas funcionalidades, vamos percorrer um exemplo de construção de uma aplicação de agente de alta qualidade usando o Agent Framework e melhorando sua qualidade usando o Agent Evaluation. Você pode consultar o código completo deste exemplo e exemplos mais avançados no Generative AI Cookbook aqui.
Neste exemplo, vamos construir e implantar uma aplicação RAG simples que recupera trechos relevantes de um índice de vetores pré-criado e os resume como resposta a uma consulta. Você pode construir a aplicação RAG usando qualquer framework, incluindo código Python nativo, mas neste exemplo, estamos usando Langchain.
A primeira coisa que queremos fazer é alavancar o MLflow para habilitar rastreamentos e implantar a aplicação. Isso pode ser feito adicionando três linhas simples ao código da aplicação (acima) que permitem ao Agent Framework fornecer rastreamentos e uma maneira fácil de observar e depurar a aplicação.

O Rastreamento MLflow fornece observabilidade para sua aplicação durante o desenvolvimento e a produção
O próximo passo é registrar a aplicação GenAI no Unity Catalog e implantá-la como um prova de conceito para obter feedback dos stakeholders usando o aplicativo de revisão do Agent Evaluation.
Você pode compartilhar o link do navegador com os stakeholders e começar a obter feedback imediatamente! O feedback é armazenado como tabelas delta em seu Unity Catalog e pode ser usado para construir um conjunto de dados de avaliação.

Use o aplicativo de revisão para coletar feedback dos stakeholders sobre seu POC
A Corning é uma empresa de ciência de materiais - nossos vidros e cerâmicas são usados em muitas aplicações industriais e científicas, então entender e agir sobre nossos dados é essencial. Construímos um assistente de pesquisa de IA usando o Databricks Mosaic AI Agent Framework para indexar centenas de milhares de documentos, incluindo dados do escritório de patentes dos EUA. Ter nosso assistente com LLM respondendo a perguntas com alta precisão era extremamente importante para nós - dessa forma, nossos pesquisadores poderiam encontrar e avançar nas tarefas em que estavam trabalhando. Para implementar isso, usamos o Databricks Mosaic AI Agent Framework para construir uma solução de IA Generativa Hi Hello, aumentada com os dados do escritório de patentes dos EUA. Ao alavancar a Databricks Data Intelligence Platform, melhoramos significativamente a velocidade de recuperação, a qualidade da resposta e a precisão. — Denis Kamotsky, Principal Software Engineer, Corning
Assim que você começar a receber feedback para criar seu conjunto de dados de avaliação, poderá usar o Agent Evaluation e os AI judges integrados para revisar cada resposta em relação a um conjunto de critérios de qualidade usando métricas pré-construídas:
As métricas agregadas e a avaliação de cada pergunta no conjunto de avaliação são registradas no MLflow. Cada julgamento de LLM é apoiado por uma justificativa escrita do porquê. Os resultados desta avaliação podem ser usados para identificar as causas raiz dos problemas de qualidade. Consulte as seções do Cookbook Avalie a qualidade do POC e Identifique a causa raiz dos problemas de qualidade para um guia detalhado.

Visualize as métricas agregadas do Agent Evaluation dentro do MLflow
Como um fabricante global líder, a Lippert utiliza dados e IA para construir produtos altamente projetados, soluções personalizadas e as melhores experiências possíveis. O Mosaic AI Agent Framework tem sido um divisor de águas para nós porque nos permitiu avaliar os resultados de nossos aplicativos GenAI e demonstrar a precisão de nossos resultados, mantendo o controle total sobre nossas fontes de dados. Graças à Databricks Data Intelligence Platform, estou confiante em implantar em produção. — Kenan Colson, VP Data & AI, Lippert
Você também pode inspecionar cada registro individual em seu conjunto de dados de avaliação para entender melhor o que está acontecendo ou usar o rastreamento do MLflow para identificar potenciais problemas de qualidade.

Inspecione cada registro individual em seu conjunto de avaliação para entender o que está acontecendo
Assim que você iterar na qualidade e estiver satisfeito com ela, poderá implantar o aplicativo em seu espaço de trabalho de produção com esforço mínimo, pois o aplicativo já está registrado no Unity Catalog.
O Mosaic AI Agent Framework nos permitiu experimentar rapidamente LLMs aumentados, com a segurança de saber que quaisquer dados privados permanecem sob nosso controle. A integração perfeita com MLflow e Model Serving garante que nossa equipe de Engenharia de ML possa escalar de POC para produção com complexidade mínima. — Ben Halsall, Analytics Director, Burberry
Esses recursos são estreitamente integrados ao Unity Catalog para fornecer governança, ao MLflow para fornecer linhagem e gerenciamento de metadados, e ao LLM Guardrails para fornecer segurança.
A Ford Direct está na vanguarda da transformação digital da indústria automotiva. Somos o hub de dados para concessionárias Ford e Lincoln, e precisávamos criar um chatbot unificado para ajudar nossos revendedores a avaliar seu desempenho, inventário, tendências e métricas de engajamento do cliente. O Databricks Mosaic AI Agent Framework nos permitiu integrar nossos dados proprietários e documentação em nossa solução de IA Generativa que usa RAG. A integração do Mosaic AI com Databricks Delta Tables e Unity Catalog tornou a atualização em tempo real de nossos índices vetoriais perfeita à medida que nossos dados de origem são atualizados, sem a necessidade de tocar em nosso modelo implantado. — Tom Thomas, VP of Analytics, FordDirect
Para detalhes adicionais, consulte nosso site de preços.
O Agent Framework e o Agent Evaluation são as melhores maneiras de construir Aplicações de Geração Aumentada por Recuperação e Agentes de qualidade de produção. Estamos animados para que mais clientes o experimentem e nos deem seu feedback. Para começar, consulte os seguintes recursos:
Para ajudar você a integrar esses recursos em seu aplicativo, o Generative AI Cookbook fornece código de exemplo que demonstra como seguir um fluxo de trabalho de desenvolvimento orientado por avaliação usando o Agent Framework e o Agent Evaluation para levar seu aplicativo de POC a produção. Além disso, o Cookbook descreve as opções e abordagens de configuração mais relevantes que podem aumentar a qualidade do aplicativo.
Experimente o Agent Framework e o Agent Evaluation hoje mesmo executando nosso notebook de demonstração ou seguindo o Cookbook para construir um aplicativo com seus dados.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
