MLflow è diventato la base per MLOps su larga scala, con oltre 30 milioni di download mensili e contributi da oltre 850 sviluppatori in tutto il mondo che potenziano carichi di lavoro ML e deep learning per migliaia di aziende. Oggi, siamo entusiasti di annunciare MLflow 3.0, una grande evoluzione che porta lo stesso rigore e affidabilità all'IA generativa, migliorando al contempo le capacità principali per tutti i carichi di lavoro AI. Queste potenti nuove funzionalità sono disponibili sia nell'open source MLflow sia come servizio completamente gestito su Databricks, dove offrono un'esperienza di sviluppo GenAI di livello enterprise.
Mentre l'IA generativa introduce nuove sfide relative all'osservabilità, alla misurazione della qualità e alla gestione di prompt e configurazioni in rapida evoluzione, MLflow 3.0 le affronta senza richiedere l'integrazione di un'altra piattaforma specializzata. MLflow 3.0 è una piattaforma unificata per applicazioni di IA generativa, machine learning tradizionale e deep learning. Sia che tu stia creando agenti GenAI, addestrando classificatori o perfezionando reti neurali, MLflow 3.0 fornisce flussi di lavoro coerenti, governance standardizzata e affidabilità di livello di produzione che si scala in base alle tue esigenze.
MLflow 3.0 in sintesi:
L'IA generativa ha cambiato il modo in cui pensiamo alla qualità. A differenza del ML tradizionale con etichette ground truth, gli output GenAI sono liberi, sfumati e vari. Un singolo prompt può generare dozzine di risposte diverse, tutte ugualmente corrette. Come misuri se la risposta di un chatbot è "buona"? Come ti assicuri che il tuo agente non stia allucinando? Come esegui il debug di complesse catene di prompt, recuperi e chiamate di strumenti?
Queste domande indicano tre sfide principali che ogni organizzazione affronta quando crea applicazioni GenAI:
Oggi, le organizzazioni che cercano di risolvere queste sfide si trovano di fronte a un panorama frammentato. Utilizzano strumenti separati per la gestione dei dati, l'osservabilità e la valutazione e il deployment. Questo approccio crea lacune significative: il debug dei problemi richiede di passare da una piattaforma all'altra, la valutazione avviene isolatamente dai dati di produzione reali e il feedback degli utenti non torna mai indietro per migliorare l'applicazione. I team dedicano più tempo all'integrazione degli strumenti che al miglioramento delle loro app GenAI. Di fronte a questa complessità, molte organizzazioni rinunciano alla garanzia di qualità sistematica. Ricorrono a test manuali non strutturati, spediscono in produzione quando le cose sembrano "abbastanza buone" e sperano per il meglio.
Risolvere queste sfide GenAI per spedire applicazioni di alta qualità richiede nuove funzionalità, ma non dovrebbe richiedere la gestione di più piattaforme. Ecco perché MLflow 3.0 estende la nostra collaudata base MLOps per supportare in modo completo GenAI su un'unica piattaforma con un'esperienza unificata che include:
"Il tracciamento di MLflow 3.0 è stato essenziale per scalare la nostra piattaforma di sicurezza basata sull'IA. Ci fornisce visibilità end-to-end su ogni decisione del modello, aiutandoci a eseguire il debug più velocemente, monitorare le prestazioni e garantire che le nostre difese si evolvano con le minacce. Con l'integrazione LangChain senza interruzioni e l'autologging, otteniamo tutto questo senza costi aggiuntivi di ingegneria." — Sam Chou, Principal Engineer presso Barracuda
Per dimostrare come MLflow 3.0 trasforma il modo in cui le organizzazioni creano, valutano e distribuiscono applicazioni di IA generativa di alta qualità, seguiremo un esempio reale: la creazione di un chatbot di assistenza clienti per l'e-commerce. Vedremo come MLflow affronta ciascuna delle tre sfide principali di GenAI lungo il percorso, consentendoti di passare rapidamente dal debug al deployment. Durante questo percorso, sfrutteremo tutta la potenza di Managed MLflow 3.0 su Databricks, inclusi strumenti integrati come l'App di Revisione, i Job di Deployment e la governance di Unity Catalog che rendono pratico lo sviluppo GenAI enterprise su larga scala.
Il tuo chatbot per l'e-commerce è stato lanciato in beta, ma i tester si lamentano di risposte lente e raccomandazioni di prodotti imprecise. Senza visibilità sulle complesse catene di prompt, recuperi e chiamate di strumenti della tua applicazione GenAI, stai eseguendo il debug alla cieca e sperimentando in prima persona la sfida dell'osservabilità.
Il tracciamento su scala di produzione di MLflow 3.0 cambia tutto. Con poche righe di codice, puoi acquisire tracce dettagliate da oltre 20 librerie GenAI e logica di business personalizzata in qualsiasi ambiente, dallo sviluppo alla produzione. Il leggero pacchetto mlflow-tracing è ottimizzato per le prestazioni, consentendoti di registrare rapidamente tutte le tracce necessarie. Costruito su OpenTelemetry, fornisce osservabilità su scala enterprise con la massima portabilità.

Dopo aver strumentato il tuo codice con MLflow Tracing, puoi navigare nell'interfaccia utente di MLflow per vedere ogni traccia acquisita automaticamente. La vista della timeline rivela perché le risposte richiedono più di 15 secondi: la tua app controlla l'inventario in ogni magazzino separatamente (5 chiamate sequenziali) e recupera l'intera cronologia degli ordini del cliente (oltre 500 ordini) quando ha solo bisogno degli acquisti recenti. Dopo aver parallelizzato i controlli di magazzino e filtrato per gli ordini recenti, il tempo di risposta si riduce di oltre il 50%.
Con i problemi di latenza risolti, ci rivolgiamo alla qualità perché i tester beta si lamentano ancora di raccomandazioni di prodotti irrilevanti. Prima di poter migliorare la qualità, dobbiamo misurarla sistematicamente. Ciò evidenzia la seconda sfida GenAI: come misuri la qualità quando gli output GenAI sono liberi e vari?
MLflow 3.0 semplifica la valutazione della qualità. Crea un set di dati di valutazione dalle tue tracce di produzione, quindi esegui giudici LLM basati sulla ricerca, potenziati da Databricks MLflow:

Questi giudici valutano diversi aspetti della qualità per una traccia GenAI e forniscono motivazioni dettagliate per i problemi rilevati. Osservando i risultati della valutazione emerge il problema: mentre i punteggi di sicurezza e accuratezza sono buoni, il punteggio di pertinenza del recupero del 65% conferma che il tuo sistema di recupero recupera spesso informazioni errate, il che si traduce in risposte meno pertinenti.
I giudici LLM di MLflow sono valutatori attentamente calibrati che eguagliano l'esperienza umana. Puoi creare giudici personalizzati utilizzando linee guida su misura per i tuoi requisiti aziendali. Crea e versiona set di dati di valutazione da conversazioni reali degli utenti, incluse interazioni di successo, casi limite e scenari complessi. MLflow gestisce la valutazione su larga scala, rendendo la valutazione sistematica della qualità pratica per qualsiasi dimensione di applicazione.
Il punteggio di pertinenza del recupero del 65% indica la causa principale, ma per risolverla è necessario capire cosa dovrebbe recuperare il sistema. Entra in Review App, un'interfaccia web per raccogliere feedback strutturato degli esperti sugli output dell'IA, ora integrata con MLflow 3.0. Questo è l'inizio del tuo percorso di miglioramento continuo per trasformare le intuizioni di produzione in applicazioni di qualità superiore
Crei sessioni di etichettatura in cui gli specialisti di prodotto esaminano le tracce con recuperi scadenti. Quando un cliente chiede "cuffie wireless sotto i 200$ con supporto codec aptX HD e autonomia di oltre 30 ore", ma ottiene risultati generici di cuffie, i tuoi esperti annotano esattamente quali prodotti soddisfano TUTTI i requisiti.
Review App consente agli esperti di dominio di rivedere le risposte reali e i documenti di origine tramite un'interfaccia web intuitiva, senza bisogno di codice. Segnalano quali prodotti sono stati recuperati correttamente e identificano i punti di confusione (come cuffie cablate vs. wireless). Le annotazioni degli esperti diventano dati di addestramento per miglioramenti futuri e aiutano ad allineare i tuoi giudici LLM con gli standard di qualità del mondo reale.

Forte delle annotazioni degli esperti, ricostruisci il tuo sistema di recupero. Passi dal confronto di parole chiave alla ricerca semantica che comprende le specifiche tecniche e aggiorni i prompt per essere più cauti riguardo alle funzionalità del prodotto non confermate. Ma come tieni traccia di queste modifiche e ti assicuri che migliorino la qualità?
Il Version Tracking di MLflow 3.0 cattura la tua intera applicazione come snapshot, includendo il codice dell'applicazione, i prompt, i parametri LLM, la logica di recupero, gli algoritmi di reranking e altro ancora. Ogni versione collega tutte le tracce e le metriche generate durante il suo utilizzo. Quando sorgono problemi, puoi risalire da qualsiasi risposta problematica alla versione esatta che l'ha prodotta.

I prompt richiedono un'attenzione particolare: piccole modifiche di formulazione possono alterare drasticamente il comportamento della tua applicazione, rendendoli difficili da testare e inclini a regressioni. Fortunatamente, il nuovissimo Prompt Registry di MLflow porta rigore ingegneristico specificamente alla gestione dei prompt. Versiona i prompt con tracciamento in stile Git, testa diverse versioni in produzione e torna indietro istantaneamente se necessario. L'interfaccia utente mostra differenze visive tra le versioni, rendendo facile vedere cosa è cambiato e comprendere l'impatto sulle prestazioni. MLflow Prompt Registry si integra anche con gli ottimizzatori DSPy per generare automaticamente prompt migliorati dai tuoi dati di valutazione.
Con un tracciamento completo delle versioni, misura se le tue modifiche hanno effettivamente migliorato la qualità:
I risultati confermano che le tue correzioni funzionano: la pertinenza del recupero salta dal 65% al 91% e la pertinenza della risposta migliora al 93%.
Con miglioramenti verificati a portata di mano, è ora di distribuire. I Deployment Jobs di MLflow 3.0 garantiscono che solo le applicazioni validate che soddisfano i tuoi requisiti di qualità raggiungano la produzione. La registrazione di una nuova versione della tua applicazione attiva automaticamente la valutazione e presenta i risultati per l'approvazione, e la completa integrazione di Unity Catalog fornisce governance e audit trail. Questo stesso flusso di lavoro di registrazione dei modelli supporta modelli ML tradizionali, modelli di deep learning e applicazioni GenAI.
Dopo che i Deployment Jobs eseguono automaticamente ulteriori controlli di qualità e gli stakeholder esaminano i risultati, il tuo chatbot migliorato supera tutte le soglie di qualità e viene approvato per la produzione. Ora che servirai migliaia di clienti, strumenterai la tua applicazione per raccogliere feedback dagli utenti finali:

Dopo la distribuzione in produzione, i tuoi dashboard mostrano che i tassi di soddisfazione sono elevati, poiché i clienti ricevono raccomandazioni di prodotti accurate grazie ai tuoi miglioramenti. La combinazione di monitoraggio automatico della qualità dai tuoi giudici LLM e feedback degli utenti in tempo reale ti dà la certezza che la tua applicazione sta fornendo valore. Se sorgono problemi, hai le tracce e il feedback per comprenderli e risolverli rapidamente.
I dati di produzione sono ora la tua tabella di marcia per il miglioramento. Questo completa il ciclo di miglioramento continuo, dalle intuizioni di produzione ai miglioramenti dello sviluppo e viceversa. Esporta le tracce con feedback negativo direttamente nei set di dati di valutazione. Utilizza il tracciamento delle versioni per confrontare le distribuzioni e identificare cosa funziona. Quando si verificano nuovi problemi, hai un processo sistematico: raccogli le tracce problematiche, ottieni annotazioni di esperti, aggiorna la tua app e distribuisci con fiducia. Ogni problema diventa un caso di test permanente, prevenendo regressioni e costruendo un'applicazione più robusta nel tempo.
MLflow 3.0 ci ha fornito la visibilità di cui avevamo bisogno per eseguire il debug e migliorare i nostri agenti Q&A con fiducia. Quello che prima richiedeva ore di tentativi ed errori, ora può essere diagnosticato in pochi minuti, con una completa tracciabilità attraverso ogni recupero, passaggio di ragionamento e chiamata di strumento." — Daisuke Hashimoto, Tech Lead presso Woven by Toyota.
MLflow 3.0 riunisce tutte queste capacità AI in un'unica piattaforma. La stessa infrastruttura di tracciamento che cattura ogni dettaglio delle tue applicazioni GenAI fornisce visibilità anche al serving di modelli ML tradizionali. Gli stessi flussi di lavoro di distribuzione coprono sia i modelli di deep learning che le applicazioni basate su LLM. La stessa integrazione con Unity Catalog fornisce meccanismi di governance collaudati per tutti i tipi di asset AI. Questo approccio unificato riduce la complessità garantendo al contempo una gestione coerente di tutte le iniziative AI.
I miglioramenti di MLflow 3.0 vanno a beneficio di tutti i carichi di lavoro AI. La nuova astrazione LoggedModel per il versionamento delle applicazioni GenAI semplifica anche il tracciamento dei checkpoint di deep learning attraverso le iterazioni di addestramento. Proprio come le versioni GenAI sono collegate alle loro tracce e metriche, i modelli ML tradizionali e i checkpoint di deep learning ora mantengono una completa genealogia che collega le esecuzioni di addestramento, i set di dati e le metriche di valutazione calcolate tra gli ambienti. I Deployment Jobs garantiscono distribuzioni di machine learning di alta qualità con gate di qualità automatizzati per ogni tipo di modello. Questi sono solo alcuni esempi dei miglioramenti che MLflow 3.0 porta ai modelli ML classici e di deep learning attraverso la sua gestione unificata di tutti i tipi di asset AI.
Come fondamento per MLOps e l'osservabilità AI su Databricks, MLflow 3.0 si integra perfettamente con l'intera Mosaic AI Platform. MLflow sfrutta Unity Catalog per la governance centralizzata di modelli, applicazioni GenAI, prompt e set di dati. Puoi persino utilizzare Databricks AI/BI per creare dashboard dai tuoi dati MLflow, trasformando le metriche AI in insight aziendali.
Sia che tu stia appena iniziando con GenAI o che gestisca centinaia di modelli e agenti su larga scala, Managed MLflow 3.0 su Databricks ha gli strumenti di cui hai bisogno. Unisciti alle migliaia di organizzazioni che utilizzano già MLflow e scopri perché è diventato lo standard per lo sviluppo AI.
Iscriviti GRATUITAMENTE a Managed MLflow su Databricks per iniziare a usare MLflow 3.0 in pochi minuti. Otterrai affidabilità di livello enterprise, sicurezza e integrazioni senza interruzioni con l'intera Databricks Lakehouse Platform.
Per gli utenti esistenti di Databricks Managed MLflow, l'aggiornamento a MLflow 3.0 ti offre accesso immediato a potenti nuove funzionalità. I tuoi esperimenti, modelli e flussi di lavoro attuali continuano a funzionare senza interruzioni mentre ottieni tracciamento di livello di produzione, LLM judges, monitoraggio online e altro ancora per le tue applicazioni generative AI, senza migrazione.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
