Passa al contenuto principale
AI

Databricks collabora con OpenAI su GPT-5.5

GPT-5.5 stabilisce le prestazioni all'avanguardia sul benchmark OfficeQA di Databricks

di Hanlin Tang, Ahmed Bilal, Arnav Singhvi, Ivan Zhou e Harish Gaur

  • Databricks sta collaborando con OpenAI su GPT-5.5
  • GPT-5.5 riduce gli errori di quasi la metà su OfficeQA Pro
  • OpenAI GPT-5.5 e Codex saranno presto disponibili su Databricks e governati tramite Unity AI Gateway

Databricks è entusiasta di collaborare con OpenAI su GPT-5.5, il loro ultimo modello di frontiera. GPT-5.5 è il modello di frontiera più potente di OpenAI per il lavoro agentivo in azienda, il ragionamento su documenti complessi e gli agenti di codifica a lungo raggio. GPT-5.5 ora alimenta anche Codex, l'agente di codifica di OpenAI.

Funzionalità e vantaggi di GPT-5.5

GPT-5.5 è il modello di frontiera più intelligente fino ad oggi e il prossimo passo verso un nuovo modo di svolgere il lavoro. Comprende ciò che stai cercando di fare più rapidamente e può occuparsi di una maggiore parte del lavoro da solo. Codex, l'agente di codifica di OpenAI, è ora alimentato da GPT-5.5, con capacità di ragionamento ed esecuzione più potenti per i flussi di lavoro degli sviluppatori.

Le stesse qualità che rendono GPT-5.5 eccellente nella codifica lo rendono anche potente per il lavoro quotidiano al computer. Poiché il modello è migliore nel comprendere l'intento, può muoversi più naturalmente attraverso l'intero ciclo del lavoro di conoscenza: trovare informazioni, comprendere ciò che conta, utilizzare strumenti, controllare l'output e trasformare materiale grezzo in qualcosa di utile.

Può scrivere e debuggare codice, ricercare online, analizzare dati, creare documenti e fogli di calcolo, operare software e spostarsi tra gli strumenti fino al completamento di un'attività. Invece di gestire attentamente ogni passaggio, puoi dare a GPT-5.5 un'attività disordinata e multi-parte e fidarti che pianifichi, utilizzi strumenti, controlli il suo lavoro, si riprenda dall'ambiguità e continui.

GPT-5.5 stabilisce le prestazioni all'avanguardia

Per comprendere come questi miglioramenti si traducano in carichi di lavoro aziendali reali, abbiamo valutato GPT-5.5 su OfficeQA, il benchmark di Databricks per attività analitiche multi-step e ricche di documenti che i clienti eseguono ogni giorno. OfficeQA, costruito su 89.000 pagine di U.S. Treasury Bulletins, misura la capacità di un modello di recuperare informazioni tra documenti, interpretare tabelle complesse ed eseguire calcoli precisi basati su dati aziendali reali.

Quando gli vengono forniti i documenti giusti (OfficeQA Pro LLM con Oracle PDF + Web Search), GPT-5.5 ha ottenuto il 64,66%, un discreto salto rispetto al 57,14% di GPT-5.4, rappresentando un miglioramento di circa il 13% e un nuovo stato dell'arte su questo benchmark. Questo testa il limite di ciò che il modello può fare quando il recupero è già gestito.
In una valutazione del flusso di lavoro completo dell'agente (OfficeQA Pro Agent Harness), in cui il modello deve trovare i documenti giusti, analizzarli e calcolare le risposte da solo utilizzando l'harness dell'agente Codex, GPT-5.5 ha ottenuto il 52,63%, rispetto al 36,10% di GPT-5.4. Si tratta di una riduzione degli errori del 46%, a dimostrazione che i guadagni di GPT-5.5 non sono solo teorici; reggono in flussi di lavoro aziendali realistici e end-to-end.

Grafico del benchmark Databricks x OfficeQA che mostra GPT-5.5 superiore a GPT-5.4 sia nelle valutazioni Oracle PDF che Full Agent Workflow.

GPT-5.5 sarà presto disponibile su Databricks. Porta il ragionamento di frontiera ai tuoi dati aziendali, in modo sicuro e su larga scala.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.