Revenir au contenu principal
AI

Databricks s'associe à OpenAI pour GPT-5.5

GPT-5.5 établit les performances de pointe sur le benchmark OfficeQA de Databricks

par Hanlin Tang, Ahmed Bilal, Arnav Singhvi, Ivan Zhou et Harish Gaur

  • Databricks s'associe à OpenAI pour GPT-5.5
  • GPT-5.5 réduit les erreurs de près de moitié sur OfficeQA Pro
  • OpenAI GPT-5.5 et Codex seront bientôt disponibles sur Databricks et gouvernés via Unity AI Gateway

Databricks est ravi de s'associer à OpenAI pour GPT-5.5, leur dernier modèle de pointe. GPT-5.5 est le modèle de pointe le plus performant d'OpenAI pour le travail d'agent en entreprise, le raisonnement sur documents complexes et les agents de codage à long terme. GPT-5.5 alimente également Codex, l'agent de codage d'OpenAI.

Fonctionnalités et avantages de GPT-5.5

GPT-5.5 est le modèle de pointe le plus intelligent à ce jour et la prochaine étape vers une nouvelle façon de travailler. Il comprend plus rapidement ce que vous essayez de faire et peut prendre en charge une plus grande partie du travail lui-même. Codex, l'agent de codage d'OpenAI, est désormais alimenté par GPT-5.5, avec des capacités de raisonnement et d'exécution plus robustes pour les flux de travail des développeurs.

Les mêmes forces qui rendent GPT-5.5 excellent en codage le rendent également puissant pour le travail quotidien sur un ordinateur. Parce que le modèle comprend mieux l'intention, il peut se déplacer plus naturellement dans la boucle complète du travail de connaissance : trouver des informations, comprendre ce qui est important, utiliser des outils, vérifier les résultats et transformer la matière première en quelque chose d'utile.

Il peut écrire et déboguer du code, rechercher sur Internet, analyser des données, créer des documents et des feuilles de calcul, faire fonctionner des logiciels et passer d'un outil à l'autre jusqu'à ce qu'une tâche soit terminée. Au lieu de gérer soigneusement chaque étape, vous pouvez confier à GPT-5.5 une tâche désordonnée et en plusieurs parties et lui faire confiance pour planifier, utiliser des outils, vérifier son travail, se remettre de l'ambiguïté et continuer.

GPT-5.5 établit les performances de pointe

Pour comprendre comment ces améliorations se traduisent dans les charges de travail d'entreprise réelles, nous avons évalué GPT-5.5 sur OfficeQA, le benchmark de Databricks pour les tâches analytiques complexes et multi-étapes axées sur les documents que les clients effectuent chaque jour. OfficeQA, construit à partir de 89 000 pages de bulletins du Trésor américain, mesure la capacité d'un modèle à récupérer des informations à travers des documents, à interpréter des tableaux complexes et à effectuer des calculs précis basés sur des données d'entreprise réelles.

Lorsqu'il reçoit les bons documents (OfficeQA Pro LLM avec Oracle PDF + Web Search), GPT-5.5 a obtenu 64,66 %, soit une amélioration notable par rapport aux 57,14 % de GPT-5.4, représentant une amélioration d'environ 13 % et un nouveau record de performance sur ce benchmark. Cela teste le potentiel maximal du modèle lorsque la récupération est déjà gérée.
Dans une évaluation de flux de travail d'agent complet (OfficeQA Pro Agent Harness), où le modèle doit trouver les bons documents, les analyser et calculer les réponses par lui-même en utilisant le harnais d'agent Codex, GPT-5.5 a obtenu 52,63 %, contre 36,10 % pour GPT-5.4. Cela représente une réduction de 46 % des erreurs, montrant que les gains de GPT-5.5 ne sont pas seulement théoriques ; ils se confirment dans des flux de travail d'entreprise réalistes et de bout en bout.

atabricks x OfficeQA benchmark chart showing GPT-5.5 outperforming GPT-5.4 on both Oracle PDF and Full Agent Workflow evaluations.

GPT-5.5 sera bientôt disponible sur Databricks. Apportez le raisonnement de pointe à vos données d'entreprise, en toute sécurité et à grande échelle.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.