Um agente de AI em segundo plano que monitora suas cargas de trabalho de produção, investiga problemas e sugere correções que você pode verificar
por Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso e Ori Zohar
O trabalho com dados e AI sempre teve um problema de manutenção. Os pipelines de dados quebram o tempo todo, não apenas por problemas de código, mas também por problemas de dados, como alterações de esquema upstream ou dados que chegam atrasados. Os modelos de ML sofrem desvio (drift), e modelos em degradação continuam fornecendo respostas incorretas com total confiança muito antes de qualquer erro ser gerado. O fardo de manter os ativos de dados e AI funcionando em produção está recaindo sobre as equipes de dados, e isso só aumenta. O surgimento de LLMs e ferramentas de agentes tornou mais rápido do que nunca criar pipelines e implantar modelos. Como resultado, as equipes de dados relatam que passam a maior parte do tempo apagando incêndios em vez de construir.
Para ajudar as equipes de dados com esse fardo operacional, criamos o Genie ZeroOps: um agente autônomo em segundo plano que monitora seus ativos de dados e AI (como pipelines, jobs, tabelas e modelos de ML) e toma providências antes ou quando as coisas dão errado. Como ele roda dentro do Databricks, ele tem acesso seguro e fácil a:
Aqui está o processo que ele executa para cada falha:
Por que você precisa de um agente desenvolvido especificamente para operações de dados e AI? Não dá para usar o mesmo agente de codificação que ajuda a criar softwares e obter os mesmos resultados? A resposta é: "não, na verdade não".
Os agentes de codificação foram criados para a engenharia de software, mas a engenharia de dados e a AI são fundamentalmente diferentes:
Quando algo quebra, você precisa: detectar o problema, avaliar a causa raiz, remediar com uma correção e verificar se funciona sem efeitos colaterais.
Examine cada etapa e você verá que os agentes de codificação geralmente deixam a desejar. Para a detecção, eles podem carecer de contexto, como telemetria, ou travar com contextos extremamente grandes, como logs do Apache Spark™. Para a avaliação, que envolve encontrar a causa raiz e seu impacto, eles geralmente não têm acesso aos dados de linhagem. Eles também não possuem uma estrutura desenvolvida especificamente para o trabalho com dados e AI, o que torna o processo mais caro e demorado. Os agentes de codificação podem escrever códigos para remediação, mas geralmente não têm o contexto necessário para fazer isso corretamente e não conseguem corrigir problemas relacionados a dados. Mas a etapa mais desafiadora para os agentes de codificação é a verificação.
A verificação exige testar as correções de código em relação a dados de produção reais em um ambiente isolado. Você não pode dar a um agente externo acesso aos dados de produção e, mesmo que fizesse isso, executar códigos neles traz o risco de efeitos colaterais que podem ter consequências devastadoras.
Para que um agente lide com segurança com a etapa de verificação, ele precisa fazer parte da própria plataforma de dados. O Genie ZeroOps faz parte da plataforma Databricks, e é isso que o faz ter sucesso onde os agentes de codificação falham.
As cargas de trabalho de machine learning, em particular, mostram os benefícios de um agente desenvolvido especificamente para o trabalho operacional.
O ML em produção introduz alguns desafios adicionais à engenharia de dados. Um modelo pode não apresentar erros de pipeline e, ainda assim, produzir previsões ruins, o que significa que manter os pipelines em execução não é suficiente; você precisa monitorar se as saídas do modelo ainda são confiáveis.
Quando não são, o Genie ZeroOps diagnostica a causa, cria um candidato corrigido e o valida antes que ele chegue ao tráfego real. Para uma correção de pipeline, ele faz a validação em relação a um clone superficial (shallow clone) de uma tabela. Para um modelo, ele treina um candidato com features corrigidas e o avalia em relação ao mesmo conjunto de avaliação (eval suite) e critérios aos quais o modelo de produção foi submetido — e não a um benchmark genérico. Ele apresenta o candidato apenas se ele for comprovadamente melhor, permitindo que você o direcione gradualmente para o tráfego real antes que ele assuma o controle.
O que torna essas correções confiáveis é o contexto. O Genie ZeroOps para ML foi desenvolvido com base na mesma base do Genie Code, Genie Ontology e na integração nativa com a pilha de ML do Databricks (Feature Store, MLflow, model serving, notebooks). Ele sabe quais features seu modelo usa, como sua equipe o avalia e o que é considerado 'bom' para o seu negócio, de modo que ele raciocina da mesma forma que seus engenheiros seniores de ML fariam.
Você configura quais ativos o Genie ZeroOps monitora e o que ele está autorizado a fazer. Tudo funciona sob a governança do Unity Catalog, de modo que ele só pode acessar os dados que suas próprias credenciais permitem. Os problemas aparecem em uma UI no estilo caixa de entrada, priorizados por gravidade, cada um com uma análise de causa raiz e uma proposta de correção. Nada é aplicado à produção sem a sua aprovação.
A sandbox é a camada técnica de confiança. O clone superficial (shallow cloning) significa que a correção é testada com dados reais, mas a produção nunca é tocada. Permissões com escopo definido e isolamento de rede significam que o ambiente de sandbox não pode ir além de seus limites. O que foi testado é exatamente o que é aplicado.
Este é o valor do Genie ZeroOps: ele permite que você dimensione suas operações com segurança. Ele faz o trabalho pesado enquanto você mantém o controle.
O Genie ZeroOps entrará em private preview nas próximas semanas, começando com suporte para jobs, pipelines, tabelas e cargas de trabalho de ML. Aplicativos e bancos de dados Lakebase estão no roadmap.
Fale com a equipe de contas do Databricks para solicitar acesso antecipado. Enquanto isso, explore outros membros da família Genie, como o Genie One e o Genie Code.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.