MLflow 3.0: Experimentação, Observabilidade e Governança de IA Unificadas

Published: June 11, 2025

Anúncios15 min de leitura

por Corey Zumar, Eric Peter, Alkis Polyzotis, Cathy Yin, Ian Ackerman, Nikhil Thorat, Ben Wilson, Maheswaran Venkatachalam, Matei Zaharia, Patrick Wendell e Akhil Gupta

Summary

O MLflow 3.0 unifica o ML tradicional, aprendizado profundo e desenvolvimento GenAI em uma única plataforma, eliminando a necessidade de ferramentas especializadas separadas
Novas capacidades GenAI incluem rastreamento em escala de produção, experiência de avaliação de qualidade reformulada, APIs de coleta de feedback e UI, e rastreamento de versão abrangente para prompts e aplicativos
A plataforma permite um fluxo de trabalho completo de desenvolvimento GenAI: depure com rastreamento, meça a qualidade com juízes LLM, melhore com feedback de especialistas, rastreie mudanças com versionamento e monitore em produção, tudo demonstrado através de um exemplo de chatbot de comércio eletrônico.

O MLflow tornou-se a base para MLOps em escala, com mais de 30 milhões de downloads mensais e contribuições de mais de 850 desenvolvedores em todo o mundo, alimentando cargas de trabalho de ML e deep learning para milhares de empresas. Hoje, estamos entusiasmados em anunciar o MLflow 3.0, uma grande evolução que traz o mesmo rigor e confiabilidade para a IA generativa, enquanto aprimora as capacidades centrais para todas as cargas de trabalho de IA. Essas novas capacidades poderosas estão disponíveis tanto no MLflow de código aberto quanto como um serviço totalmente gerenciado no Databricks, onde proporcionam uma experiência de desenvolvimento GenAI de nível empresarial.

Embora a IA gerativa introduza novos desafios em torno da observabilidade, medição de qualidade e gerenciamento de prompts e configurações em rápida evolução, o MLflow 3.0 os aborda sem exigir que você integre mais uma plataforma especializada. MLflow 3.0 é uma plataforma unificada para aplicações de IA generativa, aprendizado de máquina tradicional e aprendizado profundo. Seja você está construindo agentes GenAI, treinando classificadores ou ajustando redes neurais, o MLflow 3.0 fornece fluxos de trabalho consistentes, governança padronizada e confiabilidade de produção que escala de acordo com suas necessidades.

Uma olhada rápida no MLflow 3.0:

Capacidades abrangentes de IA Generativa: Rastreamento, juízes LLM, coleta de feedback humano, versionamento de aplicativos e gerenciamento de prompts projetados para entregar alta qualidade de aplicação e observabilidade completa
Depuração rápida e análise de causa raiz: Veja rastreamentos completos com entradas, saídas, latência e custo, vinculados aos exatos prompts, dados e versões de aplicativos que os produziram
Melhoria contínua a partir de dados de produção: Transforme o uso e feedback do mundo real em melhores conjuntos de dados de avaliação e aplicações refinadas
Plataforma unificada: MLflow suporta todas as cargas de trabalho de IA generativa, ML tradicional e aprendizado profundo em uma única plataforma com ferramentas consistentes para colaboração, gerenciamento de ciclo de vida e governança
Escalabilidade empresarial no Databricks: Confiabilidade e desempenho comprovados que alimentam cargas de trabalho de IA em produção para milhares de organizações em todo o mundo

O Desafio GenAI: Ferramentas Fragmentadas, Qualidade Elusiva

A IA generativa mudou a forma como pensamos sobre qualidade. Ao contrário do ML tradicional com rótulos de verdade básica, as saídas do GenAI são livres, matizadas e variadas. Um único prompt pode gerar dezenas de respostas diferentes que são todas igualmente corretas. Como você mede se a resposta de um chatbot é "boa"? Como você garante que seu agente não está alucinando? Como você depura cadeias complexas de prompts, recuperações e chamadas de ferramentas?

Essas perguntas apontam para três desafios centrais que toda organização enfrenta ao construir aplicações GenAI:

Observabilidade: Entender o que está acontecendo dentro do seu aplicativo, especialmente quando as coisas dão errado
Medição de Qualidade: Avaliando saídas de texto livre em escala sem gargalos manuais
Melhoria Contínua: Criando loops de feedback que transformam insights de produção em aplicações de maior qualidade

Hoje, organizações que tentam resolver esses desafios enfrentam uma paisagem fragmentada. Eles usam ferramentas separadas para gerenciamento de dados, observabilidade e avaliação, e implantação. Esta abordagem cria lacunas significativas: a depuração de problemas requer alternância entre plataformas, a avaliação ocorre isoladamente dos dados reais de produção e o feedback do usuário nunca retorna para melhorar o aplicativo. As equipes gastam mais tempo integrando ferramentas do que melhorando seus aplicativos GenAI. Diante dessa complexidade, muitas organizações simplesmente desistem da garantia de qualidade sistemática. Eles recorrem a testes manuais não estruturados, enviando para produção quando as coisas parecem "boas o suficiente", e esperando pelo melhor.

Resolver esses desafios GenAI para entregar aplicações de alta qualidade requer novas capacidades, mas não deveria exigir o gerenciamento de múltiplas plataformas. É por isso que o MLflow 3.0 amplia nossa comprovada base de MLOps para suportar de forma abrangente o GenAI em uma única plataforma com uma experiência unificada que inclui:

Rastreamento abrangente para mais de 20 bibliotecas GenAI, fornecendo visibilidade em cada solicitação em desenvolvimento e produção, com rastreamentos vinculados ao código exato, dados e prompts que os geraram
Avaliação respaldada por pesquisa com juízes LLM que medem sistematicamente a qualidade do GenAI e identificam oportunidades de melhoria
Coleta de feedback integrada que captura percepções do usuário final e de especialistas em produção, independentemente de onde você implanta, alimentando diretamente sua avaliação e pilha de observabilidade para melhoria contínua da qualidade

Para demonstrar como o MLflow 3.0 transforma a maneira como as organizações constroem, avaliam e implantam aplicações de IA generativa de alta qualidade, seguiremos um exemplo do mundo real: construção de um chatbot de suporte ao cliente de comércio eletrônico. Veremos como o MLflow aborda cada um dos três principais desafios do GenAI ao longo do caminho, permitindo que você passe rapidamente da depuração para a implantação. Ao longo desta jornada, vamos aproveitar todo o poder do Managed MLflow 3.0 no Databricks, incluindo ferramentas integradas como o Review App, Deployment Jobs e a governança do Unity Catalog que tornam o desenvolvimento GenAI empresarial prático em escala.

Passo 1: Identificar Problemas de Desempenho com Rastreamento de Nível de Produção

Seu chatbot de comércio eletrônico entrou em beta, mas os testadores reclamam de respostas lentas e recomendações de produtos imprecisas. Sem visibilidade nas complexas cadeias de prompts, recuperações e chamadas de ferramentas de sua aplicação GenAI, você está depurando às cegas e experimentando o desafio da observabilidade em primeira mão.

As mudanças de rastreamento em escala de produção do MLflow 3.0 mudam tudo. Com apenas algumas linhas de código, você pode capturar rastreamentos detalhados de mais de 20 bibliotecas GenAI e lógica de negócios personalizada em qualquer ambiente, desde o desenvolvimento até a produção. O pacote leve mlflow-tracing é otimizado para desempenho, permitindo que você registre rapidamente quantos rastreamentos forem necessários. Construído sobre o OpenTelemetry, ele oferece observabilidade em escala empresarial com máxima portabilidade.

Após instrumentar seu código com o Rastreamento MLflow, você pode navegar até a interface do usuário MLflow para ver cada rastreamento capturado automaticamente.

Após instrumentar seu código com o Rastreamento MLflow, você pode navegar até a interface do usuário MLflow para ver cada rastreamento capturado automaticamente. A visualização em linha do tempo revela por que as respostas demoram mais de 15 segundos: seu aplicativo verifica o estoque em cada armazém separadamente (5 chamadas sequenciais) e recupera todo o histórico de pedidos do cliente (mais de 500 pedidos) quando só precisa das compras recentes. Após paralelizar as verificações de armazém e filtrar por pedidos recentes, o tempo de resposta cai em mais de 50%.

Passo 2: Medir e Melhorar a Qualidade com Juízes LLM

Com os problemas de latência resolvidos, voltamos nossa atenção para a qualidade, pois os testadores beta ainda reclamam sobre recomendações de produtos irrelevantes. Antes de podermos melhorar a qualidade, precisamos medi-la sistematicamente. Isso destaca o segundo desafio GenAI: como você mede a qualidade quando as saídas GenAI são livres e variadas?

O MLflow 3.0 simplifica a avaliação de qualidade. Crie um conjunto de dados de avaliação a partir de seus rastreamentos de produção, em seguida, execute juízes LLM respaldados por pesquisas alimentados pelo Databricks Mosaic AI Agent Evaluation:

Esses juízes avaliam diferentes aspectos da qualidade para um rastreamento GenAI e fornecem justificativas detalhadas para os problemas detectados.

Esses juízes avaliam diferentes aspectos da qualidade de um rastreamento GenAI e fornecem justificativas detalhadas para os problemas detectados. Olhando para os resultados da avaliação, revela-se o problema: enquanto as pontuações de segurança e fundamentação parecem boas, a pontuação de relevância de recuperação de 65% confirma que seu sistema de recuperação frequentemente busca as informações erradas, resultando em respostas menos relevantes.

Os juízes LLM do MLflow são avaliadores cuidadosamente ajustados que correspondem à expertise humana. Você pode criar juízes personalizados usando diretrizes adaptadas às necessidades do seu negócio. Construa e versione conjuntos de dados de avaliação a partir de conversas reais de usuários, incluindo interações bem-sucedidas, casos extremos e cenários desafiadores. O MLflow lida com a avaliação em escala, tornando a avaliação de qualidade sistemática prática para qualquer tamanho de aplicação.

Passo 3: Use o Feedback de Especialistas para Melhorar a Qualidade

A pontuação de relevância de recuperação de 65% aponta para a causa raiz, mas corrigi-la requer entender o que o sistema deve recuperar. Entre no Review App, uma interface web para coletar feedback estruturado de especialistas sobre as saídas de IA, agora integrada ao MLflow 3.0. Este é o início da sua jornada de melhoria contínua para transformar insights de produção em aplicações de maior qualidade

Você cria sessões de rotulagem onde especialistas em produtos revisam rastreamentos com recuperações ruins. Quando um cliente pede por "fones de ouvido sem fio por menos de $200 com suporte a codec aptX HD e bateria de mais de 30 horas", mas recebe resultados genéricos de fones de ouvido, seus especialistas anotam exatamente quais produtos correspondem a TODOS os requisitos.

O Review App permite que especialistas do domínio revisem respostas reais e documentos de origem por meio de uma interface web intuitiva, sem necessidade de codificação. Eles marcam quais produtos foram corretamente recuperados e identificam pontos de confusão (como fones de ouvido com fio vs. sem fio). As anotações dos especialistas se tornam dados de treinamento para melhorias futuras e ajudam a alinhar seus juízes LLM com os padrões de qualidade do mundo real.

O Review App

Passo 4: Acompanhe Solicitações, Código e Alterações de Configuração

Armado com anotações de especialistas, você reconstrói seu sistema de recuperação. Você muda da correspondência de palavras-chave para a pesquisa semântica que entende especificações técnicas e atualiza prompts para serem mais cautelosos sobre recursos de produtos não confirmados. Mas como você rastreia essas mudanças e garante que elas melhoram a qualidade?
O Rastreamento de Versão do MLflow 3.0 captura todo o seu aplicativo como um instantâneo, incluindo código do aplicativo, prompts, parâmetros LLM, lógica de recuperação, algoritmos de reranking e mais. Cada versão conecta todos os rastros e métricas gerados durante seu uso. Quando surgem problemas, você pode rastrear qualquer resposta problemática de volta à exata versão que a produziu.

Rastreamento de Versões

Os prompts requerem atenção especial: pequenas alterações na redação podem alterar drasticamente o comportamento do seu aplicativo, tornando-os difíceis de testar e propensos a regressões. Felizmente, o novo Prompt Registry do MLflow traz rigor de engenharia especificamente para o gerenciamento de prompts. Solicitações de versão com rastreamento ao estilo Git, teste diferentes versões em produção e reverta instantaneamente, se necessário. A interface do usuário mostra diferenças visuais entre as versões, facilitando a visualização do que mudou e o entendimento do impacto no desempenho. O Registro de Prompts do MLflow também se integra com os otimizadores DSPy para gerar prompts aprimorados automaticamente a partir dos seus dados de avaliação.

Com o rastreamento de versões abrangente em vigor, meça se suas mudanças realmente melhoraram a qualidade:

Os resultados confirmam que suas correções funcionam: a relevância da recuperação salta de 65% para 91%, e a relevância da resposta melhora para 93%.

Passo 5: Implantar e Monitorar em Produção

Com melhorias verificadas em mãos, é hora de implantar. Os Trabalhos de Implantação do MLflow 3.0 garantem que apenas aplicações validadas que atendem aos seus requisitos de qualidade cheguem à produção. Registrar uma nova versão do seu aplicativo aciona automaticamente a avaliação e apresenta os resultados para aprovação, e a integração completa do Unity Catalog fornece governança e rastreamento de auditoria. Este mesmo fluxo de trabalho de registro de modelo suporta modelos de ML tradicionais, modelos de aprendizado profundo e aplicações GenAI.

Após os trabalhos de implantação, são realizadas automaticamente verificações adicionais de qualidade e os stakeholders revisam os resultados, seu chatbot aprimorado passa por todos os portões de qualidade e é aprovado para produção. Agora que você vai atender milhares de clientes, você instrumenta seu aplicativo para coletar feedback do usuário final:

painéis

Após a implantação em produção, seus painéis mostram que as taxas de satisfação são fortes, pois os clientes recebem recomendações de produtos precisas graças às suas melhorias. A combinação de monitoramento de qualidade automatizado de seus juízes LLM e feedback do usuário em tempo real lhe dá confiança de que seu aplicativo está entregando valor. Se surgirem problemas, você tem os rastreamentos e feedbacks para entender e resolver rapidamente.

Melhoria Contínua Através de Dados

Os dados de produção agora são seu roteiro para melhoria. Isso completa o ciclo de melhoria contínua, das percepções de produção às melhorias de desenvolvimento e vice-versa. Exporte rastreamentos com feedback negativo diretamente para conjuntos de dados de avaliação. Use o Rastreamento de Versões para comparar implantações e identificar o que está funcionando. Quando novos problemas ocorrem, você tem um processo sistemático: colete rastreamentos problemáticos, obtenha anotações de especialistas, atualize seu aplicativo e implante com confiança. Cada problema se torna um caso de teste permanente, prevenindo regressões e construindo um aplicativo mais forte ao longo do tempo.

Uma Plataforma Unificada que Escala com Você

O MLflow 3.0 reúne todas essas capacidades de IA em uma única plataforma. A mesma infraestrutura de rastreamento que captura todos os detalhes de suas aplicações GenAI também fornece visibilidade para o serviço tradicional de modelos de ML. Os mesmos fluxos de trabalho de implantação cobrem tanto modelos de deep learning quanto aplicações alimentadas por LLM. A mesma integração com o Unity Catalog fornece mecanismos de governança testados em batalha para todos os tipos de ativos de IA. Esta abordagem unificada reduz a complexidade ao mesmo tempo que garante uma gestão consistente em todas as iniciativas de IA.

As melhorias do MLflow 3.0 beneficiam todas as cargas de trabalho de IA. A nova abstração LoggedModel para versionamento de aplicações GenAI também simplifica o rastreamento de pontos de verificação de aprendizado profundo ao longo das iterações de treinamento. Assim como as versões GenAI se vinculam aos seus rastreamentos e métricas, os modelos de ML tradicionais e os pontos de verificação de aprendizado profundo agora mantêm uma linhagem completa conectando execuções de treinamento, conjuntos de dados e métricas de avaliação calculadas em diferentes ambientes. Os Trabalhos de Implantação garantem implantações de aprendizado de máquina de alta qualidade com portões de qualidade automatizados para cada tipo de modelo. Estes são apenas alguns exemplos das melhorias que o MLflow 3.0 traz para modelos clássicos de ML e modelos de aprendizado profundo através de seu gerenciamento unificado de todos os tipos de ativos de IA.

Como a base para MLOps e observabilidade de IA no Databricks, o MLflow 3.0 integra-se perfeitamente com toda a Plataforma AI Mosaic. O MLflow aproveita o Catálogo Unity para governança centralizada de modelos, aplicações GenAI, prompts e conjuntos de dados. Você pode até usar o Databricks AI/BI para construir painéis a partir de seus dados MLflow, transformando métricas de IA em insights de negócios.

Começando com o MLflow 3.0

Se você está apenas começando com GenAI ou operando centenas de modelos e agentes em escala, o MLflow 3.0 Gerenciado no Databricks tem as ferramentas de que você precisa. Junte-se às milhares de organizações que já usam o MLflow e descubra por que ele se tornou o padrão para o desenvolvimento de IA.

Cadastre-se GRATUITAMENTE no Managed MLflow no Databricks para começar a usar o MLflow 3.0 em minutos. Você terá confiabilidade de nível empresarial, segurança e integrações perfeitas com toda a Plataforma Lakehouse do Databricks.

Para os usuários existentes do Databricks Managed MLflow, a atualização para o MLflow 3.0 oferece acesso imediato a novas capacidades poderosas. Seus experimentos atuais, modelos e fluxos de trabalho continuam funcionando perfeitamente enquanto você obtém rastreamento de produção, juízes LLM, monitoramento online e mais para suas aplicações de IA generativa, sem necessidade de migração.

Passos seguintes

Leia a documentação para guias abrangentes e tutoriais
Experimente o início rápido para ver o Managed MLflow 3.0 em ação
Junte-se à comunidade para se conectar com milhares de usuários do MLflow

(This blog post has been translated using AI-powered tools) Original Post

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

June 11, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

January 31, 2025/3 min de leitura