Ir para o conteúdo principal
Produto

Engenharia de Dados Agente com Genie Code e Lakeflow

Genie Code otimiza o desenvolvimento, orquestração e implantação de pipelines de dados

por Gal Oshri, Camiel Steenstra, Lennart Kats e Joanna Zouhour

  • O Genie Code é um parceiro de IA autônomo construído especificamente para dados
  • Engenheiros de dados podem usar o Genie Code diretamente no Lakeflow, desde a construção de pipelines no Pipeline Editor até a orquestração de fluxos de trabalho no Lakeflow Jobs
  • O Genie Code suporta todo o ciclo de vida da engenharia de dados — do desenvolvimento e orquestração ao monitoramento e depuração — dentro de uma única experiência de agente

Com o Genie Code, engenheiros de dados podem usar linguagem natural para gerar pipelines de dados prontos para produção, orquestrá-los com jobs e depurar falhas. Tarefas que costumavam levar semanas — encontrar dados, construir transformações, unir jobs e corrigir falhas — agora podem ser feitas em horas, mantendo o alinhamento com os padrões de governança e operacionais.

Abaixo, vamos explorar como isso funciona na prática: descoberta de dados, construção de pipelines, orquestração de jobs e depuração de falhas, tudo a partir de uma única conversa.

Construa e orquestre pipelines e jobs completos e prontos para produção usando linguagem natural

O Genie Code agora pode levá-lo da exploração a pipelines e jobs agendados em um único fluxo, ajudando você a criá-los e operá-los de ponta a ponta.

Ele acelera o desenvolvimento de Lakeflow Spark Declarative Pipelines e simplifica como pipelines e notebooks são orquestrados e executados através de Lakeflow Jobs. O Genie Code entende o contexto do seu pipeline e job, acessando o código, a configuração e os resultados da execução.

O Genie Code auxilia nas principais etapas do ciclo de vida da engenharia de dados:

  • Pesquise sobre ativos de dados, não apenas código: O Genie Code usa popularidade, linhagem, exemplos de código e metadados do Unity Catalog para identificar os conjuntos de dados mais relevantes para sua tarefa. Por exemplo, você pode pedir ao Genie Code para explicar como as tabelas se relacionam ou rastrear como os dados fluem através de um pipeline. Na SiriusXM, as equipes usam o Genie Code para entender os relacionamentos entre tabelas mais rapidamente.
  • Construa e modifique pipelines: Comece descrevendo o pipeline que você deseja em linguagem simples, como um pipeline de detecção de fraudes construído em uma arquitetura medallion. O Genie Code gera um Spark Declarative Pipeline com camadas Bronze, Silver e Gold, incluindo fontes, transformações, expectativas de qualidade de dados e saídas. A partir daí, você pode solicitar alterações, revisar as diferenças propostas e executar e testar o pipeline.
    Lakeflow Spark Declarative Pipelines
  • Defina e orquestre jobs: Não há necessidade de definir e manter manualmente a lógica de orquestração. Você descreve o job que deseja, incluindo tarefas, dependências e agendamento. O Genie Code o configura para você, e então ajuda a modificar, depurar e corrigir problemas de orquestração em linguagem natural.
    Orquestrar Jobs
  • Estenda e evolua fluxos de trabalho existentes: À medida que os requisitos mudam, o Genie Code ajuda você a atualizar pipelines e jobs com novos conjuntos de dados e transformações. Ele entende a estrutura atual e os resultados de seus pipelines, e pode estendê-los escrevendo fluxos AutoCDC para captura de dados alterados, configurando o Auto Loader, aplicando expectativas de qualidade de dados e seguindo a arquitetura medallion.
  • Adote as melhores práticas com Declarative Automation Bundles (DABs): O Genie Code pode trabalhar diretamente em seus projetos DABs existentes: adicionando recursos, atualizando configurações, validando bundles e implantando em seus destinos. Assim, você pode adotar as melhores práticas de engenharia de software, como controle de versão, testes e CI/CD para seus projetos de dados, sem precisar escrever YAML manualmente.
  • Trabalhe mais rápido sem baixar os padrões: Essas capacidades reduzem o esforço manual, mantendo os fluxos de trabalho alinhados com os requisitos empresariais. Os pipelines permanecem governados através do Unity Catalog e seguem padrões estabelecidos para desempenho e qualidade de dados, enquanto os jobs herdam uma configuração consistente para agendamento, novas tentativas e dependências. Os engenheiros de dados mantêm o controle, mas gastam menos tempo em trabalho repetitivo.

Monitore, diagnostique e depure pipelines e jobs

  • Compreendendo e melhorando o comportamento do pipeline: O Genie Code pode inspecionar conjuntos de dados e saídas de pipeline para ajudar você a entender um pipeline de ponta a ponta. Por exemplo, ele pode resumir transformações, rastrear como os dados fluem para tabelas downstream e destacar mudanças inesperadas nas contagens de linhas ou esquemas.
  • Depure e diagnostique falhas de jobs e pipelines: Quando um pipeline ou job falha, o Genie Code ajuda você a resolver o problema. Ele analisa erros, propõe atualizações nos arquivos relevantes e mostra as diferenças antes de aplicar quaisquer alterações. Você pode revisar cada atualização e decidir o que avança. Isso transforma ciclos de depuração longos e manuais em iterações guiadas mais rápidas.
    Depurar Pipelines e Jobs
  • Estenda e personalize o Genie Code: O Genie Code não se limita às capacidades integradas. As equipes podem estendê-lo com instruções personalizadas, habilidades de agente e integrar sistemas externos através de servidores MCP, permitindo que o Genie Code opere com lógica específica do domínio, ferramentas internas e fluxos de trabalho personalizados. Isso garante que o Genie Code se adapte ao seu ambiente e conhecimento de domínio.

O que vem a seguir

Mais capacidades estão chegando para estender o Genie Code em pipelines, jobs e na plataforma mais ampla. Uma característica empolgante no horizonte são as cargas de trabalho otimizadas por IA. No futuro, você poderá permitir que o Genie Code também seja executado em segundo plano para manter sua plataforma funcionando eficientemente, para que você possa delegar tarefas repetitivas e demoradas. Isso inclui responder a falhas de jobs e gerenciar atualizações de rotina, mas também redimensionar automaticamente o uso do cluster.

Curioso para saber mais sobre essas atualizações e melhores práticas? Certifique-se de se registrar para o Data+AI Summit, onde teremos centenas de sessões cobrindo Genie Code, Lakeflow e muito mais!

Experimente as capacidades de engenharia de dados do Genie Code

Abra o Genie Code no modo agente e peça para ele ajudar você a construir ou atualizar seus pipelines e jobs. Confira a demonstração para mais detalhes.

Revise a documentação para saber mais.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.