Genie Code è un partner AI autonomo costruito specificamente per i dati
Gli ingegneri dei dati possono utilizzare Genie Code direttamente all'interno di Lakeflow, dalla costruzione di pipeline nell'Editor Pipeline all'orchestrazione di flussi di lavoro in Job di Lakeflow
Genie Code supporta l'intero ciclo di vita dell'ingegneria dei dati - dallo sviluppo e orchestrazione al monitoraggio e debug - all'interno di un'unica esperienza di agente
Con Genie Code, gli ingegneri dei dati possono usare il linguaggio naturale per generare pipeline di dati pronte per la produzione, orchestrarle con job e correggere i fallimenti. Attività che prima richiedevano settimane - trovare dati, costruire trasformazioni, mettere insieme job e correggere fallimenti - ora possono essere completate in ore, rimanendo allineate agli standard di governance e operativi.
Di seguito, illustreremo come funziona in pratica: scoperta dei dati, costruzione di pipeline, orchestrazione di job e correzione di fallimenti, tutto da una singola conversazione.
Costruisci e orchestra pipeline e job completi, pronti per la produzione, usando il linguaggio naturale
Genie Code ora può portarti dall'esplorazione alle pipeline e ai job pianificati in un unico thread, aiutandoti a crearli e gestirli end-to-end.
Accelera lo sviluppo di Pipeline Dichiarative Spark di Lakeflow e semplifica il modo in cui le pipeline e i notebook vengono orchestrati ed eseguiti tramite Job di Lakeflow. Genie Code comprende il contesto delle tue pipeline e dei tuoi job, accedendo al codice, alla configurazione e ai risultati di esecuzione.
Genie Code aiuta nelle fasi chiave del ciclo di vita dell'ingegneria dei dati:
Cerca tra gli asset di dati, non solo tra il codice: Genie Code utilizza popolarità, lineage, esempi di codice e metadati di Unity Catalog per identificare i dataset più pertinenti per il tuo compito. Ad esempio, puoi chiedere a Genie Code di spiegare come le tabelle sono correlate o di tracciare come i dati fluiscono attraverso una pipeline. Presso SiriusXM, i team utilizzano Genie Code per comprendere più rapidamente le relazioni tra le tabelle.
Costruisci e modifica pipeline: Inizia descrivendo la pipeline che desideri in linguaggio naturale, come una pipeline di rilevamento frodi basata su un'architettura medallion. Genie Code genera una Pipeline Dichiarativa Spark con livelli Bronze, Silver e Gold, includendo sorgenti, trasformazioni, aspettative di qualità dei dati e output. Da lì, puoi richiedere modifiche, rivedere le differenze proposte ed eseguire e testare la pipeline.
Definisci e orchestra job: Non c'è bisogno di definire e mantenere manualmente la logica di orchestrazione. Descrivi il job che desideri, incluse attività, dipendenze e pianificazione. Genie Code lo configura per te, quindi ti aiuta a modificare, eseguire il debug e correggere i problemi di orchestrazione in linguaggio naturale.
Estendi ed evolve i flussi di lavoro esistenti: Man mano che i requisiti cambiano, Genie Code ti aiuta ad aggiornare pipeline e job con nuovi dataset e trasformazioni. Comprende la struttura attuale e i risultati delle tue pipeline, e può estenderle scrivendo flussi AutoCDC per la cattura dei dati di modifica, configurando Auto Loader, applicando aspettative di qualità dei dati e seguendo l'architettura medallion.
Adotta le best practice con Bundle di Automazione Dichiarativa (DAB): Genie Code può lavorare direttamente all'interno dei tuoi progetti DAB esistenti: aggiungendo risorse, aggiornando configurazioni, validando bundle e distribuendo sui tuoi target. In questo modo puoi adottare best practice di ingegneria del software come controllo sorgente, test e CI/CD per i tuoi progetti di dati senza scrivere YAML a mano.
Lavora più velocemente senza abbassare gli standard: Queste capacità riducono lo sforzo manuale mantenendo i flussi di lavoro allineati ai requisiti aziendali. Le pipeline rimangono governate tramite Unity Catalog e seguono schemi consolidati per prestazioni e qualità dei dati, mentre i job ereditano una configurazione coerente per pianificazione, tentativi e dipendenze. Gli ingegneri dei dati mantengono il controllo, ma dedicano meno tempo al lavoro ripetitivo.
Monitora, diagnostica ed esegui il debug di pipeline e job
Comprendere e migliorare il comportamento delle pipeline: Genie Code può ispezionare dataset e output di pipeline per aiutarti a comprendere una pipeline end-to-end. Ad esempio, può riassumere le trasformazioni, tracciare come i dati fluiscono nelle tabelle downstream e evidenziare modifiche impreviste nei conteggi delle righe o negli schemi.
Esegui il debug e diagnostica fallimenti di job e pipeline: Quando una pipeline o un job fallisce, Genie Code ti aiuta a risolvere il problema. Analizza gli errori, propone aggiornamenti nei file pertinenti e ti mostra le differenze prima di applicare qualsiasi modifica. Puoi rivedere ogni aggiornamento e decidere cosa procedere. Questo trasforma lunghi cicli di debug manuali in iterazioni guidate più veloci.
Estendi e personalizza Genie Code: Genie Code non è limitato alle capacità integrate. I team possono estenderlo con istruzioni personalizzate, skill di agenti e integrare sistemi esterni tramite server MCP, consentendo a Genie Code di operare su logica specifica del dominio, strumenti interni e flussi di lavoro personalizzati. Ciò garantisce che Genie Code si adatti al tuo ambiente e alla tua conoscenza del dominio.
Prossimi passi
Altre funzionalità arriveranno per estendere Genie Code a pipeline, job e alla piattaforma più ampia. Una funzionalità entusiasmante all'orizzonte sono i carichi di lavoro ottimizzati dall'IA. In futuro, potrai consentire a Genie Code di funzionare anche in background per mantenere la tua piattaforma efficiente, in modo da poter delegare quei compiti ripetitivi e dispendiosi in termini di tempo. Ciò include la risposta ai fallimenti dei job e la gestione degli aggiornamenti di routine, ma anche il ridimensionamento automatico dell'uso dei cluster.
Curioso di saperne di più su questi aggiornamenti e best practice? Assicurati di registrarti al Data+AI Summit dove abbiamo centinaia di sessioni che coprono Genie Code, Lakeflow e molto altro!
Prova le capacità di ingegneria dei dati di Genie Code
Apri Genie Code in modalità agente e chiedigli di aiutarti a costruire o aggiornare le tue pipeline e i tuoi job. Dai un'occhiata alla demo per maggiori dettagli.