Databricks Agent Bricks è una piattaforma per la creazione, la valutazione e il deployment di agenti AI di livello enterprise per i flussi di lavoro aziendali. Il nostro obiettivo è aiutare i clienti a raggiungere il miglior equilibrio qualità-costo sulla frontiera di Pareto per le loro attività specifiche del dominio e a migliorare continuamente i loro agenti che ragionano sui propri dati. Per supportare questo, sviluppiamo benchmark incentrati sull'enterprise ed eseguiamo valutazioni empiriche sugli agenti che misurano accuratezza ed efficienza di serving, riflettendo i reali compromessi che le aziende affrontano in produzione.
All'interno del nostro più ampio toolkit di ottimizzazione degli agenti, questo post si concentra sull'ottimizzazione automatica dei prompt, una tecnica che sfrutta la ricerca iterativa e strutturata guidata da segnali di feedback dalla valutazione per migliorare automaticamente i prompt. Dimostriamo come possiamo:

Nelle sezioni seguenti, tratteremo
Information Extraction (IE) è una funzionalità principale di Agent Bricks, che converte fonti non strutturate come PDF o documenti scansionati in record strutturati. Nonostante i rapidi progressi nelle capacità di intelligenza artificiale generativa, l'IE rimane difficile su scala enterprise:
Di conseguenza, osserviamo che le prestazioni possono variare ampiamente per dominio e complessità del compito, quindi la costruzione di sistemi AI composti adeguati per l'IE in diversi casi d'uso richiede una valutazione approfondita delle varie capacità degli agenti AI.
Per esplorare questo, abbiamo sviluppato IE Bench, una suite di valutazione completa che copre molteplici domini enterprise del mondo reale come finanza, legale, commercio e sanità. Il benchmark riflette complesse sfide del mondo reale, inclusi documenti che superano le 100 pagine, che coprono entità di estrazione con oltre 70 campi e schemi gerarchici con più livelli annidati. Riportiamo le valutazioni sul set di test tenuto nascosto del benchmark per fornire una misura affidabile delle prestazioni nel mondo reale.
Abbiamo confrontato l'ultima generazione di modelli open-source serviti tramite l'API Databricks Foundation Models, inclusa la serie gpt-oss appena rilasciata, nonché i principali modelli proprietari di più fornitori, inclusa l'ultima famiglia GPT-5.1

I nostri risultati mostrano che gpt-oss-120b è il modello open-source con le migliori prestazioni su IE Bench, superando le precedenti prestazioni all'avanguardia open-source di Llama 4 Maverick di circa il 3% pur avvicinandosi al livello di prestazioni di gpt-5-mini, segnando un passo avanti significativo per i modelli open-source. Tuttavia, rimane ancora indietro rispetto alle prestazioni dei modelli frontier proprietari, inseguendo gpt-5, Claude Sonnet 4 e Claude Opus 4.1, che raggiunge il punteggio più alto nel benchmark.
Tuttavia, negli ambienti enterprise, le prestazioni devono essere valutate anche rispetto al costo di serving. Contestualizziamo ulteriormente i nostri risultati precedenti evidenziando che gpt-oss-120b eguaglia le prestazioni di gpt-5-mini pur sostenendo solo circa il 50% del costo di serving. 2 I modelli frontier proprietari sono in gran parte più costosi con gpt-5 a circa 10 volte il costo di serving di gpt-oss-120b, Claude Sonnet 4 a circa 20 volte e Claude Opus 4.1 a circa 90 volte.
Per illustrare il compromesso qualità-costo tra i modelli, tracciamo la frontiera di Pareto di seguito, raffigurando le prestazioni di base per tutti i modelli prima di qualsiasi miglioramento.

Questo compromesso qualità-costo ha implicazioni significative per i carichi di lavoro enterprise che richiedono inferenza su larga scala e che devono considerare il budget di calcolo e il throughput di serving mantenendo un'accuratezza performante.
Questo motiva la nostra esplorazione: possiamo spingere gpt-oss-120b a una qualità di livello frontier preservando la sua efficienza in termini di costi? Se così fosse, ciò fornirebbe prestazioni leader sulla frontiera costo-qualità e sarebbe servibile per l'adozione enterprise su Databricks.
Esploriamo l'ottimizzazione automatica dei prompt come metodo sistematico per aumentare le prestazioni del modello. L'ingegneria manuale dei prompt può fornire guadagni, ma tipicamente dipende dall'esperienza del dominio e dalla sperimentazione per tentativi ed errori. Questa complessità aumenta ulteriormente nei sistemi AI composti che integrano più chiamate LLM e strumenti esterni che devono essere ottimizzati insieme, rendendo l'ottimizzazione manuale dei prompt impraticabile da scalare o mantenere nelle pipeline di produzione.
L'ottimizzazione dei prompt offre un approccio diverso, sfruttando la ricerca strutturata guidata da segnali di feedback per migliorare automaticamente i prompt. Tali ottimizzatori sono indipendenti dalla pipeline e sono in grado di ottimizzare congiuntamente più prompt interdipendenti in pipeline multi-stadio, rendendo queste tecniche robuste e adattabili nei sistemi AI composti e in diverse attività.
Per testare questo, applichiamo algoritmi di ottimizzazione automatica dei prompt, in particolare MIPROv2, SIMBA e GEPA, un nuovo ottimizzatore di prompt proveniente dalla ricerca di Databricks e UC Berkeley che combina il riflesso basato sul linguaggio con la ricerca evolutiva per migliorare i sistemi AI. Applichiamo questi algoritmi per valutare come il prompting ottimizzato possa colmare il divario tra il modello open-source con le migliori prestazioni, gpt-oss-120b, e i modelli frontier closed-source all'avanguardia.
Consideriamo le seguenti configurazioni di ottimizzatori automatici di prompt nella nostra esplorazione
Ogni tecnica di ottimizzazione del prompt si basa su un modello ottimizzatore per perfezionare diversi aspetti del prompt per un modello studente di destinazione. A seconda dell'algoritmo, il modello ottimizzatore può generare esempi few-shot da tracce avviate per applicare l'apprendimento in-context e/o proporre e migliorare le istruzioni del task attraverso algoritmi di ricerca che eseguono riflessioni iterative utilizzando feedback per mutare e selezionare prompt migliori attraverso prove di ottimizzazione. Queste informazioni vengono distillate in prompt migliorati che il modello studente utilizzerà al momento dell'inferenza durante il serving. Sebbene lo stesso LLM possa essere utilizzato per entrambi i ruoli, sperimentiamo anche l'uso di un modello con prestazioni "più elevate" come modello ottimizzatore per esplorare se una guida di qualità superiore possa migliorare ulteriormente le prestazioni del modello studente.
Basandoci sui nostri precedenti risultati che identificano gpt-oss-120b come il modello open-source leader su IE Bench, lo consideriamo il nostro modello studente di base per esplorare ulteriori miglioramenti.
Quando ottimizziamo gpt-oss-120b, consideriamo due configurazioni:
Poiché Claude Sonnet 4 raggiunge prestazioni leader su IE Bench rispetto a gpt-oss-120b, ed è relativamente più economico rispetto a Claude Opus 4.1 con prestazioni simili, esploriamo l'ipotesi se l'applicazione di un modello ottimizzatore più potente possa produrre prestazioni migliori per gpt-oss-120b.
Valutiamo ogni configurazione attraverso le tecniche di ottimizzazione e confrontiamo con il rispettivo baseline gpt-oss-120b:


Attraverso IE Bench, scopriamo che l'ottimizzazione di gpt-oss-120b con Claude Sonnet 4 come modello ottimizzatore ottiene il maggior miglioramento rispetto alle prestazioni di base di gpt-oss-120b, con un significativo miglioramento di +4,3 punti rispetto al baseline e un miglioramento di +0,3 punti rispetto all'ottimizzazione di gpt-oss-120b con se stesso come modello ottimizzatore, evidenziando il vantaggio derivante dall'uso di un modello ottimizzatore più potente.
Confrontiamo la configurazione gpt-oss-120b ottimizzata GEPA con le migliori prestazioni contro i modelli Claude di frontiera:

La configurazione ottimizzata gpt-oss-120b supera le prestazioni di base dello stato dell'arte di Claude Opus 4.1 con un guadagno assoluto di +2,2, evidenziando i benefici dell'ottimizzazione automatica dei prompt nell'elevare un modello open-source a superare i modelli proprietari leader nelle capacità IE.
Visto il significato dell'ottimizzazione automatica dei prompt, esploriamo se l'applicazione dello stesso principio ai modelli di frontiera leader Claude Sonnet 4 e Claude Opus 4.1 possa spingere ulteriormente il soffitto delle prestazioni raggiungibili per IE Bench.
Quando ottimizziamo ciascun modello proprietario, consideriamo le seguenti configurazioni:
Consideriamo le configurazioni predefinite dei modelli ottimizzatori poiché questi modelli definiscono già il limite di performance.


L'ottimizzazione di Claude Sonnet 4 ottiene un miglioramento del +4.8 rispetto alle performance di base, mentre Claude Opus 4.1 ottimizzato ottiene le migliori performance complessive, con un significativo miglioramento di +6.4 punti rispetto alle precedenti performance allo stato dell'arte.
Aggregando i risultati degli esperimenti, osserviamo un trend costante di ottimizzazione automatica dei prompt che fornisce sostanziali guadagni di performance su tutte le performance di base dei modelli.

Sia nelle valutazioni di modelli open-source che closed-source, troviamo costantemente che GEPA è l'ottimizzatore con le migliori performance, seguito da SIMBA e poi MIPRO, sbloccando significativi miglioramenti di qualità utilizzando l'ottimizzazione automatica dei prompt.
Tuttavia, considerando il costo, osserviamo che GEPA ha un overhead di runtime relativamente più alto (poiché l'esplorazione dell'ottimizzazione può richiedere circa O(3x) chiamate LLM in più (~2-3 ore) rispetto a MIPRO e SIMBA (~1 ora))3 durante questa analisi empirica di IE Bench. Pertanto, consideriamo l'efficienza dei costi e aggiorniamo il nostro frontiera di Pareto qualità-costo includendo le performance dei modelli ottimizzati.

Evidenziamo come l'applicazione dell'ottimizzazione automatica dei prompt sposti l'intera curva di Pareto verso l'alto, stabilendo un nuovo stato dell'arte in termini di efficienza:
Applicando ottimizzazioni automatiche dei prompt agli agenti, presentiamo una soluzione che soddisfa i principi fondamentali di Agent Bricks di alte performance ed efficienza dei costi.
Il Supervised Fine-Tuning (SFT) è spesso considerato il metodo predefinito per migliorare le performance dei modelli, ma come si confronta con l'ottimizzazione automatica dei prompt?
Per rispondere a questa domanda, abbiamo condotto un esperimento su un sottoinsieme di IE Bench, scegliendo gpt 4.1 per valutare le performance di SFT e dell'ottimizzazione automatica dei prompt (escludiamo gpt-oss e gpt-5 da questi confronti poiché i modelli non erano stati rilasciati al momento della valutazione).

Sia SFT che l'ottimizzazione dei prompt migliorano indipendentemente gpt-4.1. Nello specifico:
Ciò dimostra che l'ottimizzazione dei prompt può eguagliare, e persino superare, i miglioramenti del fine-tuning supervisionato.
Ispirati da BetterTogether, una tecnica che considera l'alternanza tra ottimizzazione dei prompt e fine-tuning dei pesi del modello per migliorare le performance LLM, applichiamo GEPA sopra SFT e otteniamo un guadagno di +4.8 punti rispetto alla base, evidenziando il forte potenziale di combinare queste tecniche.

Dal punto di vista dei costi, gpt-4.1 ottimizzato con GEPA è circa il 20% più economico da servire rispetto a gpt-4.1 ottimizzato con SFT, pur offrendo una migliore qualità. Ciò evidenzia che GEPA offre un bilanciamento qualità-costo premium rispetto a SFT. Inoltre, possiamo massimizzare la qualità assoluta combinando GEPA con SFT, che offre un miglioramento del 2.7% rispetto al solo SFT, ma con un costo di serving superiore di circa il 22%.4
Abbiamo esteso il confronto a gpt-oss-120b per esaminare il frontiera qualità-costo. Mentre gpt-4.1 ottimizzato con SFT+GEPA si avvicina - entro lo 0.3% delle performance di gpt-oss-120b ottimizzato con GEPA - quest'ultimo offre la stessa qualità a un costo di serving 15 volte inferiore, rendendolo molto più pratico e attraente per il deployment su larga scala.

Insieme, questi confronti evidenziano i forti guadagni di performance resi possibili dall'ottimizzazione GEPA, sia utilizzata da sola che in combinazione con SFT. Evidenziano inoltre l'eccezionale efficienza qualità-costo di gpt-oss-120b quando ottimizzato con GEPA.
Per valutare l'ottimizzazione in termini reali, consideriamo il costo totale per i clienti. L'obiettivo dell'ottimizzazione non è solo migliorare l'accuratezza, ma anche produrre un agente efficiente in grado di gestire le richieste in produzione. Questo rende essenziale considerare sia il costo di ottimizzazione che il costo di serving di grandi volumi di richieste.
Nel primo grafico sottostante, mostriamo il costo totale per l'ottimizzazione di un agente e il serving di 100.000 richieste, suddiviso nelle componenti di ottimizzazione e serving. A questa scala, il serving domina il costo complessivo. Tra i modelli:

Esaminiamo anche come cambia il rapporto tra costo di ottimizzazione e costo di serving a diverse scale di carico di lavoro:

In questo post del blog, abbiamo dimostrato che l'ottimizzazione automatica dei prompt è una leva potente per migliorare le performance LLM nei task di AI enterprise:
Nel complesso, i nostri risultati dimostrano che l'ottimizzazione dei prompt sposta il frontiera di Pareto qualità-costo per i sistemi AI enterprise, aumentando sia le performance che l'efficienza.
L'ottimizzazione automatica dei prompt, insieme alle funzionalità TAO, RLVR e ALHF pubblicate in precedenza, è ora disponibile in Agent Bricks. Il principio fondamentale di Agent Bricks è aiutare le aziende a creare agenti che ragionino accuratamente sui tuoi dati e raggiungano qualità e efficienza dei costi all'avanguardia per attività specifiche del dominio. Unificando la valutazione, l'ottimizzazione automatica e il deployment governato, Agent Bricks consente ai tuoi agenti di adattarsi ai tuoi dati e alle tue attività, apprendere dal feedback e migliorare continuamente nelle tue attività specifiche del dominio aziendale. Incoraggiamo i clienti a provare l'estrazione di informazioni e altre funzionalità di Agent Bricks per ottimizzare gli agenti per i propri casi d'uso aziendali.
1 Sia per la serie di modelli gpt-oss che gpt-5, seguiamo le best practice del formato Harmony di OpenAI che inserisce lo schema JSON di destinazione nel messaggio dello sviluppatore per generare output strutturato.
Inoltre, analizziamo i diversi sforzi di ragionamento per la serie gpt-oss (basso, medio, alto) e la serie gpt-5 (minimo, basso, medio, alto) e riportiamo le migliori prestazioni di ciascun modello in tutti gli sforzi di ragionamento.
2 Per le stime dei costi di serving, utilizziamo i prezzi pubblicati dalle piattaforme dei fornitori di modelli (OpenAI e Anthropic per i modelli proprietari) e da Artificial Analysis per i modelli open-source. I costi vengono calcolati applicando questi prezzi alle distribuzioni di token di input e output osservate in IE Bench, ottenendo il costo totale di serving per ciascun modello.
3 Il tempo di esecuzione effettivo dell'ottimizzazione automatica dei prompt è difficile da stimare, poiché dipende da molti fattori. Qui forniamo una stima approssimativa basata sulla nostra esperienza empirica.
4 Stimiamo il costo di serving di SFT gpt-4.1 utilizzando i prezzi pubblicati da OpenAI per i modelli fine-tuned. Per i modelli ottimizzati GEPA, calcoliamo il costo di serving in base all'utilizzo dei token di input e output misurato dei prompt ottimizzati.
Autori: Arnav Singhvi, Ivan Zhou, Erich Elsen, Krista Opsahl-Ong, Michael Bendersky, Matei Zaharia, Xing Chen, Omar Khattab, Xiangrui Meng, Simon Favreau-Lessard
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.