Un agente IA in background che monitora i carichi di lavoro di produzione, analizza i problemi e suggerisce correzioni che puoi verificare
di Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso e Ori Zohar
Il lavoro sui dati e sull'IA ha sempre avuto un problema di manutenzione. Le pipeline di dati si interrompono continuamente, non solo a causa di problemi di codice, ma anche per problemi legati ai dati, come modifiche dello schema a monte o dati che arrivano in ritardo. I modelli di ML subiscono un drift e i modelli in via di degradazione continuano a fornire risposte errate con sicurezza molto prima che venga generato un errore. L'onere di mantenere attive in produzione le risorse di dati e IA ricade sui team di dati, ed è in costante crescita. L'ascesa dei LLM e degli strumenti agentici ha reso più rapida che mai la creazione di pipeline e il rilascio di modelli. Di conseguenza, i team di dati riferiscono di trascorrere la maggior parte del tempo a risolvere emergenze anziché a costruire.
Per aiutare i team di dati a gestire questo carico operativo, abbiamo creato Genie ZeroOps: un agente autonomo in background che monitora le tue risorse di dati e IA (come pipeline, job, tabelle e modelli di ML) e interviene prima o nel momento in cui si verificano problemi. Poiché viene eseguito all'interno di Databricks, ha un accesso sicuro e facilitato a:
Ecco il processo che esegue per ogni guasto:
Perché hai bisogno di un agente appositamente progettato per le operazioni di dati e IA? Non puoi usare lo stesso agente di codifica che ti aiuta a creare software e ottenere gli stessi risultati? La risposta è: "no, non proprio".
Gli agenti di codifica sono stati creati per l'ingegneria del software, ma l'ingegneria dei dati e l'IA sono fondamentalmente diverse:
Quando qualcosa si rompe, devi: rilevarlo, valutare la causa principale, risolverlo con una correzione e verificare che funzioni senza effetti collaterali.
Esaminando ogni passaggio, scoprirai che gli agenti di codifica in genere non sono all'altezza. Per il rilevamento, possono mancare di contesto, come la telemetria, o bloccarsi con contesti estremamente ampi, come i log di Apache Spark™. Per la valutazione, ovvero l'individuazione della causa principale e del suo impatto, spesso non hanno accesso ai dati di lineage. Inoltre, non dispongono di un framework dedicato per il lavoro su dati e IA, il che rende il processo più costoso e dispendioso in termini di tempo. Gli agenti di codifica possono scrivere codice per la risoluzione, ma spesso mancano del contesto necessario per farlo correttamente e non possono risolvere problemi legati ai dati. Ma il passaggio più impegnativo per gli agenti di codifica è la verifica.
La verifica richiede il test delle correzioni del codice rispetto a dati di produzione reali in un ambiente isolato. Non puoi consentire a un agente esterno l'accesso ai dati di produzione e, anche se lo facessi, l'esecuzione di codice su di essi rischierebbe di causare effetti collaterali dalle conseguenze devastanti.
Affinché un agente possa gestire in sicurezza la fase di verifica, deve far parte della piattaforma dati stessa. Genie ZeroOps fa parte della piattaforma Databricks, ed è questo che gli consente di avere successo laddove gli agenti di codifica falliscono.
I carichi di lavoro di machine learning, in particolare, mostrano i vantaggi di un agente appositamente progettato per il lavoro operativo.
Il ML in produzione introduce alcune sfide aggiuntive per l'ingegneria dei dati. Un modello può non presentare errori di pipeline e produrre comunque previsioni errate; ciò significa che mantenere attive le pipeline non è sufficiente, ma è necessario monitorare se gli output del modello sono ancora affidabili.
Quando non lo sono, Genie ZeroOps diagnostica la causa, crea un candidato corretto e lo convalida prima che entri in contatto con il traffico live. Per la correzione di una pipeline, effettua la convalida rispetto a uno shallow clone di una tabella. Per un modello, addestra un candidato su feature corrette e lo valuta rispetto alla stessa suite di valutazione e agli stessi criteri a cui era sottoposto il modello di produzione, non a un benchmark generico. Mostra il candidato solo se è misurabilmente migliore e ti consente di avviarlo gradualmente sul traffico live prima che prenda il sopravvento.
Ciò che rende affidabili queste correzioni è il contesto. Genie ZeroOps per il ML è basato sulle stesse fondamenta di Genie Code, Genie Ontology e sull'integrazione nativa con lo stack ML di Databricks (Feature Store, MLflow, model serving, notebook). Sa quali feature utilizza il tuo modello, come lo valuta il tuo team e cosa significa "buono" per la tua attività, quindi ragiona come farebbero i tuoi ingegneri ML senior.
Sei tu a configurare quali risorse monitorare con Genie ZeroOps e cosa è autorizzato a fare. Tutto viene eseguito sotto la governance di Unity Catalog, quindi può accedere solo ai dati consentiti dalle tue credenziali. I problemi vengono visualizzati in un'interfaccia utente simile a una casella di posta, ordinati per gravità, ciascuno con un'analisi della causa principale e una proposta di correzione. Nulla viene applicato alla produzione senza la tua approvazione.
La sandbox rappresenta il livello di fiducia tecnico. Lo shallow cloning significa che la correzione viene testata con dati reali, ma la produzione non viene mai toccata. Le autorizzazioni limitate e l'isolamento di rete fanno sì che l'ambiente sandbox non possa accedere all'esterno dei suoi confini. Ciò che è stato testato è esattamente ciò che viene applicato.
Questo è il valore di Genie ZeroOps: ti consente di scalare le tue operazioni in sicurezza. Svolge il lavoro più pesante mentre tu mantieni il controllo.
Genie ZeroOps entrerà in private preview nelle prossime settimane, a partire dal supporto per job, pipeline, tabelle e carichi di lavoro di ML. Le app e i database Lakebase sono in tabella di marcia.
Contatta il team del tuo account Databricks per richiedere l'accesso anticipato. Nel frattempo, esplora gli altri membri della famiglia Genie come Genie One e Genie Code.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.