Ir para o conteúdo principal
Produto

Apresentando o Genie ZeroOps: coloque suas operações de dados e AI no piloto automático

Um agente de AI em segundo plano que monitora suas cargas de trabalho de produção, investiga problemas e sugere correções que você pode verificar

por Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso e Ori Zohar

  • As equipes de dados passam a maior parte do tempo com manutenção, não construindo, e esse fardo está crescendo à medida que a AI torna mais rápida a implantação de pipelines e modelos.
  • Os agentes de codificação ajudam a construir, mas não conseguem automatizar as operações, pois não fazem parte da plataforma de dados e não podem acessar métricas, logs e linhagem. Além disso, eles não podem acessar dados de produção com segurança.
  • O Genie ZeroOps é um agente em segundo plano integrado ao Databricks que monitora, investiga e propõe correções de forma autônoma para ativos de dados e AI, como pipelines, jobs, tabelas, modelos de ML e muito mais.

O trabalho com dados e AI sempre teve um problema de manutenção. Os pipelines de dados quebram o tempo todo, não apenas por problemas de código, mas também por problemas de dados, como alterações de esquema upstream ou dados que chegam atrasados. Os modelos de ML sofrem desvio (drift), e modelos em degradação continuam fornecendo respostas incorretas com total confiança muito antes de qualquer erro ser gerado. O fardo de manter os ativos de dados e AI funcionando em produção está recaindo sobre as equipes de dados, e isso só aumenta. O surgimento de LLMs e ferramentas de agentes tornou mais rápido do que nunca criar pipelines e implantar modelos. Como resultado, as equipes de dados relatam que passam a maior parte do tempo apagando incêndios em vez de construir.

Operações baseadas em agentes com o Genie ZeroOps

Para ajudar as equipes de dados com esse fardo operacional, criamos o Genie ZeroOps: um agente autônomo em segundo plano que monitora seus ativos de dados e AI (como pipelines, jobs, tabelas e modelos de ML) e toma providências antes ou quando as coisas dão errado. Como ele roda dentro do Databricks, ele tem acesso seguro e fácil a:

  • Observabilidade total: métricas, eventos, logs e histórico de execução da camada de observabilidade da plataforma.
  • Linhagem de dados por meio do Unity Catalog: o gráfico de dependência completo de cada ativo, para que ele possa rastrear falhas até sua verdadeira causa raiz.
  • Ambientes de sandbox: o Genie ZeroOps faz clones superficiais (shallow clones) de dados de produção (criando um clone de tabela usando metadados sem duplicar os dados subjacentes) em um ambiente isolado, aplica limites de permissão e isolamento de rede, e valida uma correção proposta em relação a dados reais sem tocar na produção.

Aqui está o processo que ele executa para cada falha:

  1. Detectar: monitoramento contínuo com acesso à observabilidade da plataforma, incluindo falhas silenciosas que aparecem nas métricas de qualidade de dados antes de gerarem qualquer erro.
  2. Avaliar: a linhagem do Unity Catalog fornece ao Genie ZeroOps o gráfico de dependência completo. Ele pode rastrear uma falha até um bug de código, uma alteração de esquema três tabelas upstream ou dados incorretos introduzidos por outro pipeline.
  3. Remediar: a geração de código baseada em agentes produz a correção, usando seu fluxo de trabalho de desenvolvimento (PRs do GitHub, tickets do Jira) como contexto.
  4. Verificar: o Genie ZeroOps executa uma sandbox segura com clones de cópia zero (zero-copy) dos seus dados, permissões com escopo definido e isolamento de rede. A correção proposta é executada em relação a dados reais ali, nunca contra a produção, e nada é aplicado até que você aprove.
image2.png
UI da caixa de entrada do Genie ZeroOps mostrando incidentes ordenados por gravidade
image4.png
O Genie ZeroOps mostra uma visualização dos ativos impactados e a análise de causa raiz realizada usando dados de linhagem
image1.png
As correções sugeridas são fornecidas com uma indicação de validação em sandbox

Por que os agentes de codificação não conseguem resolver as operações de dados e AI

Por que você precisa de um agente desenvolvido especificamente para operações de dados e AI? Não dá para usar o mesmo agente de codificação que ajuda a criar softwares e obter os mesmos resultados? A resposta é: "não, na verdade não".

Os agentes de codificação foram criados para a engenharia de software, mas a engenharia de dados e a AI são fundamentalmente diferentes:

  • O contexto inclui dados, não apenas código. As falhas de pipeline geralmente são causadas por alterações de esquema upstream, dados incorretos que se propagam por uma cadeia de dependência ou corrupção silenciosa. O código sozinho não consegue informar sobre nada disso.
  • As falhas podem ser silenciosas e permanentes. Um bug de dados pode permanecer silenciosamente em uma tabela de produção por semanas, corrompendo os consumidores downstream. Quando você o encontra, as implicações comerciais já se materializaram.
  • Os dados de produção são confidenciais e governados. Ao contrário do código, eles não podem ser copiados livremente, compartilhados ou entregues a uma ferramenta externa.

Quando algo quebra, você precisa: detectar o problema, avaliar a causa raiz, remediar com uma correção e verificar se funciona sem efeitos colaterais.

Examine cada etapa e você verá que os agentes de codificação geralmente deixam a desejar. Para a detecção, eles podem carecer de contexto, como telemetria, ou travar com contextos extremamente grandes, como logs do Apache Spark™. Para a avaliação, que envolve encontrar a causa raiz e seu impacto, eles geralmente não têm acesso aos dados de linhagem. Eles também não possuem uma estrutura desenvolvida especificamente para o trabalho com dados e AI, o que torna o processo mais caro e demorado. Os agentes de codificação podem escrever códigos para remediação, mas geralmente não têm o contexto necessário para fazer isso corretamente e não conseguem corrigir problemas relacionados a dados. Mas a etapa mais desafiadora para os agentes de codificação é a verificação.

A verificação exige testar as correções de código em relação a dados de produção reais em um ambiente isolado. Você não pode dar a um agente externo acesso aos dados de produção e, mesmo que fizesse isso, executar códigos neles traz o risco de efeitos colaterais que podem ter consequências devastadoras.

Para que um agente lide com segurança com a etapa de verificação, ele precisa fazer parte da própria plataforma de dados. O Genie ZeroOps faz parte da plataforma Databricks, e é isso que o faz ter sucesso onde os agentes de codificação falham.

As cargas de trabalho de machine learning, em particular, mostram os benefícios de um agente desenvolvido especificamente para o trabalho operacional.

Genie ZeroOps para machine learning

O ML em produção introduz alguns desafios adicionais à engenharia de dados. Um modelo pode não apresentar erros de pipeline e, ainda assim, produzir previsões ruins, o que significa que manter os pipelines em execução não é suficiente; você precisa monitorar se as saídas do modelo ainda são confiáveis.

Quando não são, o Genie ZeroOps diagnostica a causa, cria um candidato corrigido e o valida antes que ele chegue ao tráfego real. Para uma correção de pipeline, ele faz a validação em relação a um clone superficial (shallow clone) de uma tabela. Para um modelo, ele treina um candidato com features corrigidas e o avalia em relação ao mesmo conjunto de avaliação (eval suite) e critérios aos quais o modelo de produção foi submetido — e não a um benchmark genérico. Ele apresenta o candidato apenas se ele for comprovadamente melhor, permitindo que você o direcione gradualmente para o tráfego real antes que ele assuma o controle.

O que torna essas correções confiáveis é o contexto. O Genie ZeroOps para ML foi desenvolvido com base na mesma base do Genie Code, Genie Ontology e na integração nativa com a pilha de ML do Databricks (Feature Store, MLflow, model serving, notebooks). Ele sabe quais features seu modelo usa, como sua equipe o avalia e o que é considerado 'bom' para o seu negócio, de modo que ele raciocina da mesma forma que seus engenheiros seniores de ML fariam.

Você mantém o controle

Você configura quais ativos o Genie ZeroOps monitora e o que ele está autorizado a fazer. Tudo funciona sob a governança do Unity Catalog, de modo que ele só pode acessar os dados que suas próprias credenciais permitem. Os problemas aparecem em uma UI no estilo caixa de entrada, priorizados por gravidade, cada um com uma análise de causa raiz e uma proposta de correção. Nada é aplicado à produção sem a sua aprovação.

A sandbox é a camada técnica de confiança. O clone superficial (shallow cloning) significa que a correção é testada com dados reais, mas a produção nunca é tocada. Permissões com escopo definido e isolamento de rede significam que o ambiente de sandbox não pode ir além de seus limites. O que foi testado é exatamente o que é aplicado.

Este é o valor do Genie ZeroOps: ele permite que você dimensione suas operações com segurança. Ele faz o trabalho pesado enquanto você mantém o controle.

O Genie ZeroOps estará disponível em breve

O Genie ZeroOps entrará em private preview nas próximas semanas, começando com suporte para jobs, pipelines, tabelas e cargas de trabalho de ML. Aplicativos e bancos de dados Lakebase estão no roadmap.

Fale com a equipe de contas do Databricks para solicitar acesso antecipado. Enquanto isso, explore outros membros da família Genie, como o Genie One e o Genie Code.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.