11 giugno 2025

MLflow 3.0: Costruisci, Valuta e Distribuisci IA Generativa con Fiducia

di Corey Zumar, Eric Peter, Alkis Polyzotis, Cathy Yin, Ian Ackerman, Nikhil Thorat, Ben Wilson, Maheswaran Venkatachalam, Matei Zaharia, Patrick Wendell e Akhil Gupta

MLflow 3.0 unifica lo sviluppo di ML tradizionale, deep learning e GenAI in un'unica piattaforma, eliminando la necessità di strumenti specializzati separati
Le nuove funzionalità GenAI includono il tracciamento su scala di produzione, un'esperienza di valutazione della qualità rinnovata, API e interfaccia utente per la raccolta di feedback e il monitoraggio completo delle versioni per prompt e applicazioni
La piattaforma abilita un flusso di lavoro completo per lo sviluppo GenAI: debug con tracciamento, misurazione della qualità con giudici LLM, miglioramento con feedback degli esperti, monitoraggio delle modifiche con versioning e monitoraggio in produzione, il tutto dimostrato attraverso un esempio di chatbot per e-commerce

MLflow è diventato la base per MLOps su larga scala, con oltre 30 milioni di download mensili e contributi da oltre 850 sviluppatori in tutto il mondo che potenziano carichi di lavoro ML e deep learning per migliaia di aziende. Oggi, siamo entusiasti di annunciare MLflow 3.0, una grande evoluzione che porta lo stesso rigore e affidabilità all'IA generativa, migliorando al contempo le capacità principali per tutti i carichi di lavoro AI. Queste potenti nuove funzionalità sono disponibili sia nell'open source MLflow sia come servizio completamente gestito su Databricks, dove offrono un'esperienza di sviluppo GenAI di livello enterprise.

Mentre l'IA generativa introduce nuove sfide relative all'osservabilità, alla misurazione della qualità e alla gestione di prompt e configurazioni in rapida evoluzione, MLflow 3.0 le affronta senza richiedere l'integrazione di un'altra piattaforma specializzata. MLflow 3.0 è una piattaforma unificata per applicazioni di IA generativa, machine learning tradizionale e deep learning. Sia che tu stia creando agenti GenAI, addestrando classificatori o perfezionando reti neurali, MLflow 3.0 fornisce flussi di lavoro coerenti, governance standardizzata e affidabilità di livello di produzione che si scala in base alle tue esigenze.

MLflow 3.0 in sintesi:

Funzionalità complete per l'IA generativa: Tracciamento, giudici LLM, raccolta di feedback umano, versionamento delle applicazioni e gestione dei prompt progettati per offrire alta qualità delle applicazioni e completa osservabilità
Debug rapido e analisi delle cause principali: Visualizza tracce complete con input, output, latenza e costi, collegati ai prompt, ai dati e alle versioni delle app esatte che li hanno prodotti
Miglioramento continuo dai dati di produzione: Trasforma l'utilizzo e il feedback del mondo reale in migliori set di dati di valutazione e applicazioni raffinate
Piattaforma unificata: MLflow supporta tutti i carichi di lavoro di IA generativa, ML tradizionale e deep learning su un'unica piattaforma con strumenti coerenti per la collaborazione, la gestione del ciclo di vita e la governance
Scala enterprise su Databricks: Affidabilità e prestazioni comprovate che potenziano i carichi di lavoro AI di produzione per migliaia di organizzazioni in tutto il mondo

La sfida GenAI: Strumenti frammentati, qualità sfuggente

L'IA generativa ha cambiato il modo in cui pensiamo alla qualità. A differenza del ML tradizionale con etichette ground truth, gli output GenAI sono liberi, sfumati e vari. Un singolo prompt può generare dozzine di risposte diverse, tutte ugualmente corrette. Come misuri se la risposta di un chatbot è "buona"? Come ti assicuri che il tuo agente non stia allucinando? Come esegui il debug di complesse catene di prompt, recuperi e chiamate di strumenti?

Queste domande indicano tre sfide principali che ogni organizzazione affronta quando crea applicazioni GenAI:

Osservabilità: Comprendere cosa sta succedendo all'interno della tua applicazione, specialmente quando le cose vanno storte
Misurazione della qualità: Valutare output di testo liberi su larga scala senza colli di bottiglia manuali
Miglioramento continuo: Creare cicli di feedback che trasformano le intuizioni di produzione in applicazioni di qualità superiore

Oggi, le organizzazioni che cercano di risolvere queste sfide si trovano di fronte a un panorama frammentato. Utilizzano strumenti separati per la gestione dei dati, l'osservabilità e la valutazione e il deployment. Questo approccio crea lacune significative: il debug dei problemi richiede di passare da una piattaforma all'altra, la valutazione avviene isolatamente dai dati di produzione reali e il feedback degli utenti non torna mai indietro per migliorare l'applicazione. I team dedicano più tempo all'integrazione degli strumenti che al miglioramento delle loro app GenAI. Di fronte a questa complessità, molte organizzazioni rinunciano alla garanzia di qualità sistematica. Ricorrono a test manuali non strutturati, spediscono in produzione quando le cose sembrano "abbastanza buone" e sperano per il meglio.

Risolvere queste sfide GenAI per spedire applicazioni di alta qualità richiede nuove funzionalità, ma non dovrebbe richiedere la gestione di più piattaforme. Ecco perché MLflow 3.0 estende la nostra collaudata base MLOps per supportare in modo completo GenAI su un'unica piattaforma con un'esperienza unificata che include:

Tracciamento completo per oltre 20 librerie GenAI, che fornisce visibilità su ogni richiesta in sviluppo e produzione, con tracce collegate al codice, ai dati e ai prompt esatti che le hanno generate
Valutazione basata sulla ricerca con giudici LLM che misurano sistematicamente la qualità GenAI e identificano opportunità di miglioramento
Raccolta di feedback integrata che acquisisce le intuizioni degli utenti finali e degli esperti dalla produzione, indipendentemente da dove distribuisci, alimentando direttamente il tuo stack di valutazione e osservabilità per un miglioramento continuo della qualità

"Il tracciamento di MLflow 3.0 è stato essenziale per scalare la nostra piattaforma di sicurezza basata sull'IA. Ci fornisce visibilità end-to-end su ogni decisione del modello, aiutandoci a eseguire il debug più velocemente, monitorare le prestazioni e garantire che le nostre difese si evolvano con le minacce. Con l'integrazione LangChain senza interruzioni e l'autologging, otteniamo tutto questo senza costi aggiuntivi di ingegneria." — Sam Chou, Principal Engineer presso Barracuda

Per dimostrare come MLflow 3.0 trasforma il modo in cui le organizzazioni creano, valutano e distribuiscono applicazioni di IA generativa di alta qualità, seguiremo un esempio reale: la creazione di un chatbot di assistenza clienti per l'e-commerce. Vedremo come MLflow affronta ciascuna delle tre sfide principali di GenAI lungo il percorso, consentendoti di passare rapidamente dal debug al deployment. Durante questo percorso, sfrutteremo tutta la potenza di Managed MLflow 3.0 su Databricks, inclusi strumenti integrati come l'App di Revisione, i Job di Deployment e la governance di Unity Catalog che rendono pratico lo sviluppo GenAI enterprise su larga scala.

Passaggio 1: Individuare i problemi di prestazioni con il tracciamento di livello enterprise

Il tuo chatbot per l'e-commerce è stato lanciato in beta, ma i tester si lamentano di risposte lente e raccomandazioni di prodotti imprecise. Senza visibilità sulle complesse catene di prompt, recuperi e chiamate di strumenti della tua applicazione GenAI, stai eseguendo il debug alla cieca e sperimentando in prima persona la sfida dell'osservabilità.

Il tracciamento su scala di produzione di MLflow 3.0 cambia tutto. Con poche righe di codice, puoi acquisire tracce dettagliate da oltre 20 librerie GenAI e logica di business personalizzata in qualsiasi ambiente, dallo sviluppo alla produzione. Il leggero pacchetto mlflow-tracing è ottimizzato per le prestazioni, consentendoti di registrare rapidamente tutte le tracce necessarie. Costruito su OpenTelemetry, fornisce osservabilità su scala enterprise con la massima portabilità.

Dopo aver strumentato il tuo codice con MLflow Tracing, puoi navigare nell'interfaccia utente di MLflow per vedere ogni traccia acquisita automaticamente.

Dopo aver strumentato il tuo codice con MLflow Tracing, puoi navigare nell'interfaccia utente di MLflow per vedere ogni traccia acquisita automaticamente. La vista della timeline rivela perché le risposte richiedono più di 15 secondi: la tua app controlla l'inventario in ogni magazzino separatamente (5 chiamate sequenziali) e recupera l'intera cronologia degli ordini del cliente (oltre 500 ordini) quando ha solo bisogno degli acquisti recenti. Dopo aver parallelizzato i controlli di magazzino e filtrato per gli ordini recenti, il tempo di risposta si riduce di oltre il 50%.

Passaggio 2: Misurare e migliorare la qualità con i giudici LLM

Con i problemi di latenza risolti, ci rivolgiamo alla qualità perché i tester beta si lamentano ancora di raccomandazioni di prodotti irrilevanti. Prima di poter migliorare la qualità, dobbiamo misurarla sistematicamente. Ciò evidenzia la seconda sfida GenAI: come misuri la qualità quando gli output GenAI sono liberi e vari?

MLflow 3.0 semplifica la valutazione della qualità. Crea un set di dati di valutazione dalle tue tracce di produzione, quindi esegui giudici LLM basati sulla ricerca, potenziati da Databricks MLflow:

Questi giudici valutano diversi aspetti della qualità per una traccia GenAI e forniscono motivazioni dettagliate per i problemi rilevati.

Questi giudici valutano diversi aspetti della qualità per una traccia GenAI e forniscono motivazioni dettagliate per i problemi rilevati. Osservando i risultati della valutazione emerge il problema: mentre i punteggi di sicurezza e accuratezza sono buoni, il punteggio di pertinenza del recupero del 65% conferma che il tuo sistema di recupero recupera spesso informazioni errate, il che si traduce in risposte meno pertinenti.

I giudici LLM di MLflow sono valutatori attentamente calibrati che eguagliano l'esperienza umana. Puoi creare giudici personalizzati utilizzando linee guida su misura per i tuoi requisiti aziendali. Crea e versiona set di dati di valutazione da conversazioni reali degli utenti, incluse interazioni di successo, casi limite e scenari complessi. MLflow gestisce la valutazione su larga scala, rendendo la valutazione sistematica della qualità pratica per qualsiasi dimensione di applicazione.

Passaggio 3: Utilizza il Feedback degli Esperti per Migliorare la Qualità

Il punteggio di pertinenza del recupero del 65% indica la causa principale, ma per risolverla è necessario capire cosa dovrebbe recuperare il sistema. Entra in Review App, un'interfaccia web per raccogliere feedback strutturato degli esperti sugli output dell'IA, ora integrata con MLflow 3.0. Questo è l'inizio del tuo percorso di miglioramento continuo per trasformare le intuizioni di produzione in applicazioni di qualità superiore

Crei sessioni di etichettatura in cui gli specialisti di prodotto esaminano le tracce con recuperi scadenti. Quando un cliente chiede "cuffie wireless sotto i 200$ con supporto codec aptX HD e autonomia di oltre 30 ore", ma ottiene risultati generici di cuffie, i tuoi esperti annotano esattamente quali prodotti soddisfano TUTTI i requisiti.

Review App consente agli esperti di dominio di rivedere le risposte reali e i documenti di origine tramite un'interfaccia web intuitiva, senza bisogno di codice. Segnalano quali prodotti sono stati recuperati correttamente e identificano i punti di confusione (come cuffie cablate vs. wireless). Le annotazioni degli esperti diventano dati di addestramento per miglioramenti futuri e aiutano ad allineare i tuoi giudici LLM con gli standard di qualità del mondo reale.

La Review App

Passaggio 4: Tieni Traccia delle Modifiche a Prompt, Codice e Configurazione

Forte delle annotazioni degli esperti, ricostruisci il tuo sistema di recupero. Passi dal confronto di parole chiave alla ricerca semantica che comprende le specifiche tecniche e aggiorni i prompt per essere più cauti riguardo alle funzionalità del prodotto non confermate. Ma come tieni traccia di queste modifiche e ti assicuri che migliorino la qualità?
Il Version Tracking di MLflow 3.0 cattura la tua intera applicazione come snapshot, includendo il codice dell'applicazione, i prompt, i parametri LLM, la logica di recupero, gli algoritmi di reranking e altro ancora. Ogni versione collega tutte le tracce e le metriche generate durante il suo utilizzo. Quando sorgono problemi, puoi risalire da qualsiasi risposta problematica alla versione esatta che l'ha prodotta.

Version Tracking

I prompt richiedono un'attenzione particolare: piccole modifiche di formulazione possono alterare drasticamente il comportamento della tua applicazione, rendendoli difficili da testare e inclini a regressioni. Fortunatamente, il nuovissimo Prompt Registry di MLflow porta rigore ingegneristico specificamente alla gestione dei prompt. Versiona i prompt con tracciamento in stile Git, testa diverse versioni in produzione e torna indietro istantaneamente se necessario. L'interfaccia utente mostra differenze visive tra le versioni, rendendo facile vedere cosa è cambiato e comprendere l'impatto sulle prestazioni. MLflow Prompt Registry si integra anche con gli ottimizzatori DSPy per generare automaticamente prompt migliorati dai tuoi dati di valutazione.

Con un tracciamento completo delle versioni, misura se le tue modifiche hanno effettivamente migliorato la qualità:

I risultati confermano che le tue correzioni funzionano: la pertinenza del recupero salta dal 65% al 91% e la pertinenza della risposta migliora al 93%.

Passaggio 5: Distribuisci e Monitora in Produzione

Con miglioramenti verificati a portata di mano, è ora di distribuire. I Deployment Jobs di MLflow 3.0 garantiscono che solo le applicazioni validate che soddisfano i tuoi requisiti di qualità raggiungano la produzione. La registrazione di una nuova versione della tua applicazione attiva automaticamente la valutazione e presenta i risultati per l'approvazione, e la completa integrazione di Unity Catalog fornisce governance e audit trail. Questo stesso flusso di lavoro di registrazione dei modelli supporta modelli ML tradizionali, modelli di deep learning e applicazioni GenAI.

Dopo che i Deployment Jobs eseguono automaticamente ulteriori controlli di qualità e gli stakeholder esaminano i risultati, il tuo chatbot migliorato supera tutte le soglie di qualità e viene approvato per la produzione. Ora che servirai migliaia di clienti, strumenterai la tua applicazione per raccogliere feedback dagli utenti finali:

dashboard

Dopo la distribuzione in produzione, i tuoi dashboard mostrano che i tassi di soddisfazione sono elevati, poiché i clienti ricevono raccomandazioni di prodotti accurate grazie ai tuoi miglioramenti. La combinazione di monitoraggio automatico della qualità dai tuoi giudici LLM e feedback degli utenti in tempo reale ti dà la certezza che la tua applicazione sta fornendo valore. Se sorgono problemi, hai le tracce e il feedback per comprenderli e risolverli rapidamente.

Miglioramento Continuo Attraverso i Dati

I dati di produzione sono ora la tua tabella di marcia per il miglioramento. Questo completa il ciclo di miglioramento continuo, dalle intuizioni di produzione ai miglioramenti dello sviluppo e viceversa. Esporta le tracce con feedback negativo direttamente nei set di dati di valutazione. Utilizza il tracciamento delle versioni per confrontare le distribuzioni e identificare cosa funziona. Quando si verificano nuovi problemi, hai un processo sistematico: raccogli le tracce problematiche, ottieni annotazioni di esperti, aggiorna la tua app e distribuisci con fiducia. Ogni problema diventa un caso di test permanente, prevenendo regressioni e costruendo un'applicazione più robusta nel tempo.

MLflow 3.0 ci ha fornito la visibilità di cui avevamo bisogno per eseguire il debug e migliorare i nostri agenti Q&A con fiducia. Quello che prima richiedeva ore di tentativi ed errori, ora può essere diagnosticato in pochi minuti, con una completa tracciabilità attraverso ogni recupero, passaggio di ragionamento e chiamata di strumento." — Daisuke Hashimoto, Tech Lead presso Woven by Toyota.

Una piattaforma unificata che scala con te

MLflow 3.0 riunisce tutte queste capacità AI in un'unica piattaforma. La stessa infrastruttura di tracciamento che cattura ogni dettaglio delle tue applicazioni GenAI fornisce visibilità anche al serving di modelli ML tradizionali. Gli stessi flussi di lavoro di distribuzione coprono sia i modelli di deep learning che le applicazioni basate su LLM. La stessa integrazione con Unity Catalog fornisce meccanismi di governance collaudati per tutti i tipi di asset AI. Questo approccio unificato riduce la complessità garantendo al contempo una gestione coerente di tutte le iniziative AI.

I miglioramenti di MLflow 3.0 vanno a beneficio di tutti i carichi di lavoro AI. La nuova astrazione LoggedModel per il versionamento delle applicazioni GenAI semplifica anche il tracciamento dei checkpoint di deep learning attraverso le iterazioni di addestramento. Proprio come le versioni GenAI sono collegate alle loro tracce e metriche, i modelli ML tradizionali e i checkpoint di deep learning ora mantengono una completa genealogia che collega le esecuzioni di addestramento, i set di dati e le metriche di valutazione calcolate tra gli ambienti. I Deployment Jobs garantiscono distribuzioni di machine learning di alta qualità con gate di qualità automatizzati per ogni tipo di modello. Questi sono solo alcuni esempi dei miglioramenti che MLflow 3.0 porta ai modelli ML classici e di deep learning attraverso la sua gestione unificata di tutti i tipi di asset AI.

Come fondamento per MLOps e l'osservabilità AI su Databricks, MLflow 3.0 si integra perfettamente con l'intera Databricks Platform. MLflow sfrutta Unity Catalog per la governance centralizzata di modelli, applicazioni GenAI, prompt e set di dati. Puoi persino utilizzare Databricks AI/BI per creare dashboard dai tuoi dati MLflow, trasformando le metriche AI in insight aziendali.

Iniziare con MLflow 3.0

Sia che tu stia appena iniziando con GenAI o che gestisca centinaia di modelli e agenti su larga scala, Managed MLflow 3.0 su Databricks ha gli strumenti di cui hai bisogno. Unisciti alle migliaia di organizzazioni che utilizzano già MLflow e scopri perché è diventato lo standard per lo sviluppo AI.

Iscriviti GRATUITAMENTE a Managed MLflow su Databricks per iniziare a usare MLflow 3.0 in pochi minuti. Otterrai affidabilità di livello enterprise, sicurezza e integrazioni senza interruzioni con l'intera Databricks Lakehouse Platform.

Per gli utenti esistenti di Databricks Managed MLflow, l'aggiornamento a MLflow 3.0 ti offre accesso immediato a potenti nuove funzionalità. I tuoi esperimenti, modelli e flussi di lavoro attuali continuano a funzionare senza interruzioni mentre ottieni tracciamento di livello di produzione, LLM judges, monitoraggio online e altro ancora per le tue applicazioni generative AI, senza migrazione.

Passi successivi

Leggi la documentazione per guide complete e tutorial
Prova la guida rapida per vedere Managed MLflow 3.0 in azione
Unisciti alla community per connetterti con migliaia di utenti MLflow

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog