Passa al contenuto principale
Prodotto

Presentazione di Genie ZeroOps: metti il pilota automatico alle tue operazioni di dati e IA

Un agente IA in background che monitora i carichi di lavoro di produzione, analizza i problemi e suggerisce correzioni che puoi verificare

di Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso e Ori Zohar

  • I team di dati trascorrono la maggior parte del tempo nella manutenzione anziché nella creazione, e questo onere sta crescendo poiché l'IA rende più rapido il rilascio di pipeline e modelli.
  • Gli agenti di codifica aiutano a costruire, ma non possono automatizzare le operazioni poiché non fanno parte della piattaforma dati e non possono accedere a metriche, log e lineage. Soprattutto, non possono accedere in sicurezza ai dati di produzione.
  • Genie ZeroOps è un agente in background integrato in Databricks che monitora, analizza e propone autonomamente correzioni per risorse di dati e IA come pipeline, job, tabelle, modelli di ML e altro ancora.

Il lavoro sui dati e sull'IA ha sempre avuto un problema di manutenzione. Le pipeline di dati si interrompono continuamente, non solo a causa di problemi di codice, ma anche per problemi legati ai dati, come modifiche dello schema a monte o dati che arrivano in ritardo. I modelli di ML subiscono un drift e i modelli in via di degradazione continuano a fornire risposte errate con sicurezza molto prima che venga generato un errore. L'onere di mantenere attive in produzione le risorse di dati e IA ricade sui team di dati, ed è in costante crescita. L'ascesa dei LLM e degli strumenti agentici ha reso più rapida che mai la creazione di pipeline e il rilascio di modelli. Di conseguenza, i team di dati riferiscono di trascorrere la maggior parte del tempo a risolvere emergenze anziché a costruire.

Operazioni agentiche con Genie ZeroOps

Per aiutare i team di dati a gestire questo carico operativo, abbiamo creato Genie ZeroOps: un agente autonomo in background che monitora le tue risorse di dati e IA (come pipeline, job, tabelle e modelli di ML) e interviene prima o nel momento in cui si verificano problemi. Poiché viene eseguito all'interno di Databricks, ha un accesso sicuro e facilitato a:

  • Osservabilità completa: metriche, eventi, log e cronologia delle esecuzioni provenienti dal livello di osservabilità della piattaforma.
  • Data lineage tramite Unity Catalog: il grafico completo delle dipendenze di ogni risorsa, in modo da poter tracciare i guasti fino alla loro reale causa principale.
  • Ambienti sandbox: Genie ZeroOps esegue uno shallow clone dei dati di produzione (creando un clone della tabella tramite metadati senza duplicare i dati sottostanti) in un ambiente isolato, applica guardrail di autorizzazione e isolamento di rete, e convalida la correzione proposta su dati reali senza toccare la produzione.

Ecco il processo che esegue per ogni guasto:

  1. Rilevamento: monitoraggio continuo con accesso all'osservabilità della piattaforma, compresi i guasti silenziosi che compaiono nelle metriche di qualità dei dati prima di generare errori.
  2. Valutazione: il lineage di Unity Catalog fornisce a Genie ZeroOps il grafico completo delle dipendenze. Può tracciare un guasto fino a un bug del codice, a una modifica dello schema tre tabelle a monte o a dati errati introdotti da un'altra pipeline.
  3. Risoluzione: la generazione di codice agentica produce la correzione, utilizzando come contesto il tuo flusso di lavoro di sviluppo (PR di GitHub, ticket Jira).
  4. Verifica: Genie ZeroOps esegue una sandbox sicura con cloni zero-copy dei tuoi dati, autorizzazioni limitate e isolamento di rete. La correzione proposta viene eseguita su dati reali in quell'ambiente, mai in produzione, e nulla viene applicato finché non lo approvi.
image2.png
L'interfaccia utente della posta in arrivo di Genie ZeroOps mostra gli incidenti ordinati per gravità
image4.png
Genie ZeroOps mostra una visualizzazione delle risorse interessate e l'analisi della causa principale eseguita utilizzando i dati di lineage
image1.png
Le correzioni suggerite vengono fornite con un'indicazione della convalida in sandbox

Perché gli agenti di codifica non possono risolvere le operazioni di dati e IA

Perché hai bisogno di un agente appositamente progettato per le operazioni di dati e IA? Non puoi usare lo stesso agente di codifica che ti aiuta a creare software e ottenere gli stessi risultati? La risposta è: "no, non proprio".

Gli agenti di codifica sono stati creati per l'ingegneria del software, ma l'ingegneria dei dati e l'IA sono fondamentalmente diverse:

  • Il contesto include i dati, non solo il codice. I guasti delle pipeline sono spesso causati da modifiche dello schema a monte, dati errati che si propagano attraverso una catena di dipendenze o corruzione silenziosa. Tutte cose di cui il codice da solo non può informarti.
  • I guasti possono essere silenziosi e permanenti. Un bug dei dati può rimanere silenzioso in una tabella di produzione per settimane, contaminando i consumatori a valle. Quando lo scopri, le implicazioni aziendali si sono già materializzate.
  • I dati di produzione sono sensibili e regolamentati. A differenza del codice, non possono essere copiati, condivisi o consegnati liberamente a uno strumento esterno.

Quando qualcosa si rompe, devi: rilevarlo, valutare la causa principale, risolverlo con una correzione e verificare che funzioni senza effetti collaterali.

Esaminando ogni passaggio, scoprirai che gli agenti di codifica in genere non sono all'altezza. Per il rilevamento, possono mancare di contesto, come la telemetria, o bloccarsi con contesti estremamente ampi, come i log di Apache Spark™. Per la valutazione, ovvero l'individuazione della causa principale e del suo impatto, spesso non hanno accesso ai dati di lineage. Inoltre, non dispongono di un framework dedicato per il lavoro su dati e IA, il che rende il processo più costoso e dispendioso in termini di tempo. Gli agenti di codifica possono scrivere codice per la risoluzione, ma spesso mancano del contesto necessario per farlo correttamente e non possono risolvere problemi legati ai dati. Ma il passaggio più impegnativo per gli agenti di codifica è la verifica.

La verifica richiede il test delle correzioni del codice rispetto a dati di produzione reali in un ambiente isolato. Non puoi consentire a un agente esterno l'accesso ai dati di produzione e, anche se lo facessi, l'esecuzione di codice su di essi rischierebbe di causare effetti collaterali dalle conseguenze devastanti.

Affinché un agente possa gestire in sicurezza la fase di verifica, deve far parte della piattaforma dati stessa. Genie ZeroOps fa parte della piattaforma Databricks, ed è questo che gli consente di avere successo laddove gli agenti di codifica falliscono.

I carichi di lavoro di machine learning, in particolare, mostrano i vantaggi di un agente appositamente progettato per il lavoro operativo.

Genie ZeroOps per il machine learning

Il ML in produzione introduce alcune sfide aggiuntive per l'ingegneria dei dati. Un modello può non presentare errori di pipeline e produrre comunque previsioni errate; ciò significa che mantenere attive le pipeline non è sufficiente, ma è necessario monitorare se gli output del modello sono ancora affidabili.

Quando non lo sono, Genie ZeroOps diagnostica la causa, crea un candidato corretto e lo convalida prima che entri in contatto con il traffico live. Per la correzione di una pipeline, effettua la convalida rispetto a uno shallow clone di una tabella. Per un modello, addestra un candidato su feature corrette e lo valuta rispetto alla stessa suite di valutazione e agli stessi criteri a cui era sottoposto il modello di produzione, non a un benchmark generico. Mostra il candidato solo se è misurabilmente migliore e ti consente di avviarlo gradualmente sul traffico live prima che prenda il sopravvento.

Ciò che rende affidabili queste correzioni è il contesto. Genie ZeroOps per il ML è basato sulle stesse fondamenta di Genie Code, Genie Ontology e sull'integrazione nativa con lo stack ML di Databricks (Feature Store, MLflow, model serving, notebook). Sa quali feature utilizza il tuo modello, come lo valuta il tuo team e cosa significa "buono" per la tua attività, quindi ragiona come farebbero i tuoi ingegneri ML senior.

Mantieni il controllo

Sei tu a configurare quali risorse monitorare con Genie ZeroOps e cosa è autorizzato a fare. Tutto viene eseguito sotto la governance di Unity Catalog, quindi può accedere solo ai dati consentiti dalle tue credenziali. I problemi vengono visualizzati in un'interfaccia utente simile a una casella di posta, ordinati per gravità, ciascuno con un'analisi della causa principale e una proposta di correzione. Nulla viene applicato alla produzione senza la tua approvazione.

La sandbox rappresenta il livello di fiducia tecnico. Lo shallow cloning significa che la correzione viene testata con dati reali, ma la produzione non viene mai toccata. Le autorizzazioni limitate e l'isolamento di rete fanno sì che l'ambiente sandbox non possa accedere all'esterno dei suoi confini. Ciò che è stato testato è esattamente ciò che viene applicato.

Questo è il valore di Genie ZeroOps: ti consente di scalare le tue operazioni in sicurezza. Svolge il lavoro più pesante mentre tu mantieni il controllo.

Genie ZeroOps è in arrivo

Genie ZeroOps entrerà in private preview nelle prossime settimane, a partire dal supporto per job, pipeline, tabelle e carichi di lavoro di ML. Le app e i database Lakebase sono in tabella di marcia.

Contatta il team del tuo account Databricks per richiedere l'accesso anticipato. Nel frattempo, esplora gli altri membri della famiglia Genie come Genie One e Genie Code.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.