L'anno scorso, la promessa dell'intelligenza dei dati – la creazione di AI in grado di ragionare sui tuoi dati – è arrivata con Mosaic AI, una piattaforma completa per la creazione, la valutazione, il monitoraggio e la protezione dei sistemi AI. Da allora, migliaia dei nostri clienti hanno messo in produzione l'intelligenza dei dati, creando agenti specifici per il dominio potenziati dai loro dati aziendali:
Tuttavia, l'immaturità della tecnologia generativa ha significato che il percorso verso la produzione era ancora impegnativo. Creare agenti di alta qualità era spesso troppo complesso, per diverse ragioni:
Sulla base delle nostre esperienze passate nel collaborare con i clienti per mettere in produzione l'AI, abbiamo trascorso l'ultimo anno a ripensare come costruire agenti. Oggi introduciamo Agent Bricks, un nuovo prodotto che cambia il modo in cui le aziende sviluppano agenti specifici per il dominio. Invece di gestire la complessità opprimente dello sviluppo di agenti, i team possono concentrarsi su ciò che conta di più: definire lo scopo del loro agente e fornire una guida strategica sulla qualità attraverso feedback in linguaggio naturale. Agent Bricks gestisce il resto, generando automaticamente suite di valutazione e auto-ottimizzando la qualità.

Ecco come funziona:
Valutazione automatica: Agent Bricks creerà quindi automaticamente benchmark di valutazione specifici per il tuo compito, che potrebbero includere la generazione sintetica di nuovi dati o la creazione di giudici LLM personalizzati.
Con Agent Bricks, elimina le congetture attraverso valutazioni automatiche. Ottimizziamo automaticamente i parametri, così puoi fidarti delle prestazioni del tuo agente e sapere che stai operando alla massima efficienza. Il risultato finale è che ora puoi mettere in produzione agenti di alta qualità ed economicamente vantaggiosi. Agent Bricks è ottimizzato per casi d'uso comuni del settore, tra cui l'estrazione di informazioni strutturate, l'assistenza affidabile alla conoscenza, la trasformazione personalizzata del testo e sistemi multi-agente orchestrati.
Agent Bricks è in grado in modo univoco di misurare, costruire e migliorare continuamente la qualità. Ad esempio, creando agenti conversazionali su documenti, abbiamo misurato la qualità media su diversi benchmark di Q&A. Rispetto ad altri prodotti in questo settore, Agent Bricks ha creato agenti di qualità significativamente superiore (Figura 1). Non solo, con la capacità di apprendimento continuo, le prestazioni continuano a migliorare nel tempo.
Per la comprensione dei documenti, Agent Bricks crea sistemi di qualità superiore e a costo inferiore, rispetto ai LLM proprietari ottimizzati per i prompt (Figura 2). Possiamo ottenere un sistema di qualità superiore su un benchmark di parsing di documenti, ma con un costo fino a 10 volte inferiore.
Oltre a questi benchmark, anche i nostri clienti sono in grado di creare agenti di qualità con Agent Bricks:
"Agent Bricks ci ha permesso di raddoppiare la nostra accuratezza medica rispetto ai comuni LLM commerciali, rispettando al contempo gli elevati standard interni di Flo Health per accuratezza clinica, sicurezza, privacy e protezione." — Roman Bugaev, CTO, Flo Health
“Agent Bricks ha superato significativamente la nostra implementazione open-source originale sia nelle metriche di accuratezza LLM-as-judge che di valutazione umana.” — Joel Wasson, Enterprise Data & Analytics, Hawaiian Electric
“[Agent Bricks] ha accelerato le nostre capacità AI in tutta l'azienda, guidandoci attraverso miglioramenti della qualità nel ciclo di feedback e identificando opzioni a costo inferiore che funzionano altrettanto bene.” — Chris Nishnick, Director of AI, Lippert
Agent Bricks è in grado di ottenere questi risultati perché è potenziato dalla ricerca del nostro team di ricerca Databricks Mosaic AI. Esiste uno zoo di metodi per migliorare la qualità degli agenti e nuove ricerche vengono rilasciate a un ritmo vertiginoso. Il nostro team cura sia la ricerca esistente sia sviluppa nuove innovazioni che vengono poi utilizzate da Agent Bricks durante la fase di valutazione e ottimizzazione automatica. Sebbene disponiamo di un'ampia gamma di metodi, oggi siamo entusiasti di evidenziare una delle nostre innovazioni – Agent Learning from Human Feedback (ALHF).
Agent Learning from Human Feedback (ALHF)
Una sfida chiave per la qualità è la capacità di guidare il comportamento dell'agente tramite feedback. Questo è particolarmente difficile perché il feedback viene spesso fornito solo con un pollice in su o in giù, ed è poco chiaro quale dei molti componenti e parametri all'interno di un sistema agente debba essere modificato per rispettare il feedback. L'approccio attuale, che consiste nell'inserire tutte le istruzioni in un unico enorme prompt LLM, è fragile e non si generalizza a un sistema agente più complesso.
Con ALHF, abbiamo risolto questo problema con due approcci. In primo luogo, siamo in grado di ricevere il ricco contesto di guida in linguaggio naturale (ad esempio, ignora tutti i dati precedenti a maggio 1990). In secondo luogo, sulla base di questa guida in linguaggio naturale, i nostri algoritmi traducono in modo intelligente la guida in ottimizzazioni tecniche – affinando l'algoritmo di recupero, migliorando i prompt, filtrando il database vettoriale o persino modificando il pattern agentico.
Questo approccio democratizza lo sviluppo di agenti, consentendo agli esperti di dominio di contribuire direttamente al miglioramento del sistema senza una profonda competenza tecnica nell'infrastruttura AI.
"La capacità di valutare e migliorare continuamente l'accuratezza è una capacità chiave per Experian, specialmente in un settore altamente regolamentato." — James Lin, Head of AI ML Innovation, Experian

I primi clienti stanno già sperimentando la trasformazione offerta da Agent Bricks: miglioramenti dell'accuratezza che raddoppiano i benchmark di performance e riducono le tempistiche di sviluppo da settimane a un solo giorno. Ancora più importante, stanno ottenendo qualcosa che sembrava impossibile solo pochi mesi fa: sistemi di AI sostenibili e scalabili che offrono un valore aziendale costante.
Agent Bricks rappresenta più di un'evoluzione degli strumenti: è un cambiamento fondamentale verso lo sviluppo di AI mature e pronte per la produzione. Poiché i sistemi agenti diventano sempre più centrali nelle operazioni aziendali, gli approcci di “controllo dell'umore” del passato semplicemente non saranno scalabili. Le organizzazioni necessitano di un approccio robusto e sistematico per costruire e ottimizzare agenti intelligenti in grado di gestire la complessità e i requisiti delle applicazioni aziendali del mondo reale.
Molti clienti Databricks hanno già creato agenti AI con Agent Bricks e tutti noi non vediamo l'ora di vedere cosa saranno in grado di fare in futuro.
Guarda il video con Experian e Flo Health
“Con Agent Bricks, i nostri team sono stati in grado di analizzare oltre 400.000 documenti di sperimentazione clinica ed estrarre punti dati strutturati, senza scrivere una sola riga di codice. In poco meno di 60 minuti, abbiamo avuto un agente funzionante in grado di trasformare dati complessi non strutturati in dati utilizzabili per l'analisi.” — Joseph Roemer, Head of Data & AI, Commercial IT, AstraZeneca
“Agent Bricks ci ha permesso di creare un agente conveniente di cui potevamo fidarci in produzione. Con una valutazione personalizzata, abbiamo sviluppato con sicurezza un agente di estrazione di informazioni che ha analizzato calendari legislativi non strutturati, risparmiando 30 giorni di ottimizzazione manuale per tentativi ed errori.” — Ryan Jockers, Assistant Director of Reporting and Analytics presso il North Dakota University System
Pronto a colmare il divario tra “qualità demo” e “qualità di produzione”? Agent Bricks è ora disponibile in beta.
Inizia subito:
Il futuro dell'AI aziendale non riguarda la gestione della complessità, ma il concentrarsi sui risultati che contano mentre Agent Bricks si occupa del resto.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
