Passa al contenuto principale
Prodotto

Ingegneria dei dati agentiva con Genie Code e Lakeflow

Genie Code semplifica lo sviluppo, l'orchestrazione e il deployment delle pipeline di dati

di Gal Oshri, Camiel Steenstra, Lennart Kats e Joanna Zouhour

  • Genie Code è un partner AI autonomo costruito specificamente per i dati
  • Gli ingegneri dei dati possono utilizzare Genie Code direttamente all'interno di Lakeflow, dalla costruzione di pipeline nell'Editor Pipeline all'orchestrazione di flussi di lavoro in Job di Lakeflow
  • Genie Code supporta l'intero ciclo di vita dell'ingegneria dei dati - dallo sviluppo e orchestrazione al monitoraggio e debug - all'interno di un'unica esperienza di agente

Con Genie Code, gli ingegneri dei dati possono usare il linguaggio naturale per generare pipeline di dati pronte per la produzione, orchestrarle con job e correggere i fallimenti. Attività che prima richiedevano settimane - trovare dati, costruire trasformazioni, mettere insieme job e correggere fallimenti - ora possono essere completate in ore, rimanendo allineate agli standard di governance e operativi.

Di seguito, illustreremo come funziona in pratica: scoperta dei dati, costruzione di pipeline, orchestrazione di job e correzione di fallimenti, tutto da una singola conversazione.

Costruisci e orchestra pipeline e job completi, pronti per la produzione, usando il linguaggio naturale

Genie Code ora può portarti dall'esplorazione alle pipeline e ai job pianificati in un unico thread, aiutandoti a crearli e gestirli end-to-end.

Accelera lo sviluppo di Pipeline Dichiarative Spark di Lakeflow e semplifica il modo in cui le pipeline e i notebook vengono orchestrati ed eseguiti tramite Job di Lakeflow. Genie Code comprende il contesto delle tue pipeline e dei tuoi job, accedendo al codice, alla configurazione e ai risultati di esecuzione.

Genie Code aiuta nelle fasi chiave del ciclo di vita dell'ingegneria dei dati:

  • Cerca tra gli asset di dati, non solo tra il codice: Genie Code utilizza popolarità, lineage, esempi di codice e metadati di Unity Catalog per identificare i dataset più pertinenti per il tuo compito. Ad esempio, puoi chiedere a Genie Code di spiegare come le tabelle sono correlate o di tracciare come i dati fluiscono attraverso una pipeline. Presso SiriusXM, i team utilizzano Genie Code per comprendere più rapidamente le relazioni tra le tabelle.
  • Costruisci e modifica pipeline: Inizia descrivendo la pipeline che desideri in linguaggio naturale, come una pipeline di rilevamento frodi basata su un'architettura medallion. Genie Code genera una Pipeline Dichiarativa Spark con livelli Bronze, Silver e Gold, includendo sorgenti, trasformazioni, aspettative di qualità dei dati e output. Da lì, puoi richiedere modifiche, rivedere le differenze proposte ed eseguire e testare la pipeline.
    Pipeline Dichiarative Spark di Lakeflow
  • Definisci e orchestra job: Non c'è bisogno di definire e mantenere manualmente la logica di orchestrazione. Descrivi il job che desideri, incluse attività, dipendenze e pianificazione. Genie Code lo configura per te, quindi ti aiuta a modificare, eseguire il debug e correggere i problemi di orchestrazione in linguaggio naturale.
    Orchestra Job
  • Estendi ed evolve i flussi di lavoro esistenti: Man mano che i requisiti cambiano, Genie Code ti aiuta ad aggiornare pipeline e job con nuovi dataset e trasformazioni. Comprende la struttura attuale e i risultati delle tue pipeline, e può estenderle scrivendo flussi AutoCDC per la cattura dei dati di modifica, configurando Auto Loader, applicando aspettative di qualità dei dati e seguendo l'architettura medallion.
  • Adotta le best practice con Bundle di Automazione Dichiarativa (DAB): Genie Code può lavorare direttamente all'interno dei tuoi progetti DAB esistenti: aggiungendo risorse, aggiornando configurazioni, validando bundle e distribuendo sui tuoi target. In questo modo puoi adottare best practice di ingegneria del software come controllo sorgente, test e CI/CD per i tuoi progetti di dati senza scrivere YAML a mano.
  • Lavora più velocemente senza abbassare gli standard: Queste capacità riducono lo sforzo manuale mantenendo i flussi di lavoro allineati ai requisiti aziendali. Le pipeline rimangono governate tramite Unity Catalog e seguono schemi consolidati per prestazioni e qualità dei dati, mentre i job ereditano una configurazione coerente per pianificazione, tentativi e dipendenze. Gli ingegneri dei dati mantengono il controllo, ma dedicano meno tempo al lavoro ripetitivo.

Monitora, diagnostica ed esegui il debug di pipeline e job

  • Comprendere e migliorare il comportamento delle pipeline: Genie Code può ispezionare dataset e output di pipeline per aiutarti a comprendere una pipeline end-to-end. Ad esempio, può riassumere le trasformazioni, tracciare come i dati fluiscono nelle tabelle downstream e evidenziare modifiche impreviste nei conteggi delle righe o negli schemi.
  • Esegui il debug e diagnostica fallimenti di job e pipeline: Quando una pipeline o un job fallisce, Genie Code ti aiuta a risolvere il problema. Analizza gli errori, propone aggiornamenti nei file pertinenti e ti mostra le differenze prima di applicare qualsiasi modifica. Puoi rivedere ogni aggiornamento e decidere cosa procedere. Questo trasforma lunghi cicli di debug manuali in iterazioni guidate più veloci.
    Esegui il Debug di Pipeline e Job
  • Estendi e personalizza Genie Code: Genie Code non è limitato alle capacità integrate. I team possono estenderlo con istruzioni personalizzate, skill di agenti e integrare sistemi esterni tramite server MCP, consentendo a Genie Code di operare su logica specifica del dominio, strumenti interni e flussi di lavoro personalizzati. Ciò garantisce che Genie Code si adatti al tuo ambiente e alla tua conoscenza del dominio.

Prossimi passi

Altre funzionalità arriveranno per estendere Genie Code a pipeline, job e alla piattaforma più ampia. Una funzionalità entusiasmante all'orizzonte sono i carichi di lavoro ottimizzati dall'IA. In futuro, potrai consentire a Genie Code di funzionare anche in background per mantenere la tua piattaforma efficiente, in modo da poter delegare quei compiti ripetitivi e dispendiosi in termini di tempo. Ciò include la risposta ai fallimenti dei job e la gestione degli aggiornamenti di routine, ma anche il ridimensionamento automatico dell'uso dei cluster.

Curioso di saperne di più su questi aggiornamenti e best practice? Assicurati di registrarti al Data+AI Summit dove abbiamo centinaia di sessioni che coprono Genie Code, Lakeflow e molto altro!

Prova le capacità di ingegneria dei dati di Genie Code

Apri Genie Code in modalità agente e chiedigli di aiutarti a costruire o aggiornare le tue pipeline e i tuoi job. Dai un'occhiata alla demo per maggiori dettagli.

Consulta la documentazione per saperne di più.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.