Les grands modèles de langage sont difficiles à adapter aux nouvelles tâches d'entreprise. Le prompting est sujet aux erreurs et n'apporte que des gains de qualité limités, tandis que le fine-tuning nécessite de grandes quantités de données humaines étiquetées qui ne sont pas disponibles pour la plupart des tâches d'entreprise. Aujourd'hui, nous introduisons une nouvelle méthode de réglage de modèle qui ne nécessite que des données d'utilisation non étiquetées, permettant aux entreprises d'améliorer la qualité et le coût de l'IA en utilisant simplement les données qu'elles possèdent déjà. Notre méthode, Test-time Adaptive Optimization (TAO), exploite le calcul au moment du test (tel que popularisé par o1 et R1) et l'apprentissage par renforcement (RL) pour apprendre à un modèle à mieux accomplir une tâche en se basant uniquement sur les exemples d'entrée passés, ce qui signifie qu'il s'adapte à un budget de calcul de réglage réglable, et non à l'effort d'étiquetage humain. Crucialement, bien que TAO utilise le calcul au moment du test, il l'utilise dans le cadre du processus pour entraîner un modèle ; ce modèle exécute ensuite la tâche directement avec de faibles coûts d'inférence (c'est-à-dire qu'il ne nécessite pas de calcul supplémentaire au moment de l'inférence). Étonnamment, même sans données étiquetées, TAO peut atteindre une meilleure qualité de modèle que le fine-tuning traditionnel, et il peut amener des modèles open source peu coûteux comme Llama à la qualité de modèles propriétaires coûteux comme GPT-4o et o3-mini.
TAO fait partie du programme de notre équipe de recherche sur l'intelligence des données — le problème de faire exceller l'IA dans des domaines spécifiques en utilisant les données que les entreprises possèdent déjà. Avec TAO, nous obtenons trois résultats passionnants :
La Figure 1 montre comment TAO améliore les modèles Llama sur trois tâches d'entreprise : FinanceBench, DB Enterprise Arena et BIRD-SQL (en utilisant le dialecte Databricks SQL)². Bien qu'ayant seulement accès aux entrées LLM, TAO surpasse le fine-tuning traditionnel (FT) avec des milliers d'exemples étiquetés et amène Llama dans la même gamme que les modèles propriétaires coûteux.


Figure 1 : TAO sur Llama 3.1 8B et Llama 3.3 70B sur trois benchmarks d'entreprise. TAO entraîne des améliorations substantielles de la qualité, surpassant le fine-tuning et défiant les LLM propriétaires coûteux.
TAO est maintenant disponible en avant-première pour les clients Databricks qui souhaitent régler Llama, et il alimentera plusieurs produits à venir. Remplissez ce formulaire pour exprimer votre intérêt à l'essayer sur vos tâches dans le cadre de l'avant-première privée. Dans cet article, nous décrivons plus en détail le fonctionnement de TAO et nos résultats avec.
Au lieu de nécessiter des données de sortie annotées par des humains, l'idée clé de TAO est d'utiliser le calcul au moment du test pour qu'un modèle explore des réponses plausibles pour une tâche, puis d'utiliser l'apprentissage par renforcement pour mettre à jour un LLM en évaluant ces réponses. Ce pipeline peut être mis à l'échelle en utilisant le calcul au moment du test, au lieu d'un effort humain coûteux, pour augmenter la qualité. De plus, il peut facilement être personnalisé en utilisant des informations spécifiques à la tâche (par exemple, des règles personnalisées). Étonnamment, l'application de cette mise à l'échelle avec des modèles open source de haute qualité conduit dans de nombreux cas à de meilleurs résultats que les étiquettes humaines.

Plus précisément, TAO comprend quatre étapes :
Crucialement, bien que TAO utilise le calcul au moment du test, il l'utilise pour entraîner un modèle qui exécute ensuite une tâche directement avec de faibles coûts d'inférence. Cela signifie que les modèles produits par TAO ont le même coût et la même vitesse d'inférence que le modèle d'origine - considérablement moins que les modèles de calcul au moment du test comme o1, o3 et R1. Comme nos résultats le montrent, les modèles open source efficaces entraînés avec TAO peuvent rivaliser avec les principaux modèles propriétaires en termes de qualité.
TAO offre une nouvelle méthode puissante dans la boîte à outils pour le réglage des modèles d'IA. Contrairement à l'ingénierie de prompt, qui est lente et sujette aux erreurs, et au fine-tuning, qui nécessite la production d'étiquettes humaines coûteuses et de haute qualité, TAO permet aux ingénieurs IA d'obtenir d'excellents résultats en fournissant simplement des exemples d'entrées représentatifs de leur tâche.
TAO est une méthode très flexible qui peut être personnalisée si nécessaire, mais notre implémentation par défaut dans Databricks fonctionne bien prête à l'emploi sur diverses tâches d'entreprise. Au cœur de notre implémentation se trouvent de nouvelles techniques d'apprentissage par renforcement et de modélisation de récompense que notre équipe a développées, permettant à TAO d'apprendre par exploration, puis de régler le modèle sous-jacent à l'aide du RL. Par exemple, l'un des ingrédients qui alimentent TAO est un modèle de récompense personnalisé que nous avons entraîné pour les tâches d'entreprise, DBRM, capable de produire des signaux d'évaluation précis sur un large éventail de tâches.
Dans cette section, nous approfondissons la manière dont nous avons utilisé TAO pour régler les LLM sur des tâches d'entreprise spécialisées. Nous avons sélectionné trois benchmarks représentatifs, y compris des benchmarks open source populaires et des benchmarks internes que nous avons développés dans le cadre de notre Domain Intelligence Benchmark Suite (DIBS).

Pour chaque tâche, nous avons évalué plusieurs approches :
Comme le montre le Tableau 3, sur les trois benchmarks et les deux modèles Llama, TAO améliore significativement les performances de base de Llama, dépassant même celles du fine-tuning.

À l'instar du calcul classique en temps de test, TAO produit des résultats de meilleure qualité lorsqu'il a accès à plus de ressources de calcul (voir la Figure 3 pour un exemple). Contrairement au calcul en temps de test, cependant, ce calcul supplémentaire n'est utilisé que pendant la phase de réglage ; le LLM final a le même coût d'inférence que le LLM d'origine. Par exemple, o3-mini produit 5 à 10 fois plus de tokens de sortie que les autres modèles sur nos tâches, ce qui entraîne un coût d'inférence proportionnellement plus élevé, tandis que TAO a le même coût d'inférence que le modèle Llama d'origine.
Jusqu'à présent, nous avons utilisé TAO pour améliorer les LLM sur des tâches individuelles et spécifiques, telles que la génération de SQL. Cependant, à mesure que les agents deviennent plus complexes, les entreprises ont de plus en plus besoin de LLM capables d'effectuer plusieurs tâches. Dans cette section, nous montrons comment TAO peut améliorer globalement les performances du modèle sur une gamme de tâches d'entreprise.
Dans cette expérience, nous avons rassemblé 175 000 invites reflétant un ensemble diversifié de tâches d'entreprise, notamment le codage, les mathématiques, la réponse aux questions, la compréhension de documents et le chat. Nous avons ensuite exécuté TAO sur Llama 3.1 70B et Llama 3.3 70B. Enfin, nous avons testé une suite de tâches pertinentes pour les entreprises, qui comprend des benchmarks LLM populaires (par exemple, Arena Hard, LiveBench, GPQA Diamond, MMLU Pro, HumanEval, MATH) et des benchmarks internes dans plusieurs domaines pertinents pour les entreprises.
TAO améliore significativement les performances des deux modèles[t][u]. Llama 3.3 70B et Llama 3.1 70B s'améliorent respectivement de 2,4 et 4,0 points de pourcentage. TAO rapproche significativement Llama 3.3 70B de GPT-4o sur les tâches d'entreprise[v][w]. Tout cela est réalisé sans coût d'étiquetage humain, juste avec des données d'utilisation représentatives des LLM et notre implémentation de production de TAO. La qualité s'améliore sur tous les sous-scores, sauf le codage, où les performances sont statiques.
TAO est une méthode de réglage puissante qui fonctionne étonnamment bien sur de nombreuses tâches en tirant parti du calcul en temps de test. Pour l'utiliser avec succès sur vos propres tâches, vous aurez besoin de :
Une bonne pratique qui permettra à TAO et à d'autres méthodes d'amélioration de modèle est de créer un cercle vertueux de données pour vos applications d'IA. Dès que vous déployez une application d'IA, vous pouvez collecter des entrées, des sorties de modèle et d'autres événements via des services tels que Databricks Inference Tables. Vous pouvez ensuite utiliser uniquement les entrées pour exécuter TAO. Plus les gens utilisent votre application, plus vous aurez de données pour l'affiner, et - grâce à TAO - meilleur sera votre LLM.
Dans ce blog, nous avons présenté Test-time Adaptive Optimization (TAO), une nouvelle technique de réglage de modèle qui obtient des résultats de haute qualité sans avoir besoin de données étiquetées. Nous avons développé TAO pour relever un défi majeur que nous avons constaté chez nos clients d'entreprise : ils manquaient des données étiquetées nécessaires au fine-tuning standard. TAO utilise le calcul en temps de test et l'apprentissage par renforcement pour améliorer les modèles en utilisant les données que les entreprises possèdent déjà, telles que des exemples d'entrées, ce qui permet d'améliorer facilement la qualité de toute application d'IA déployée et de réduire les coûts en utilisant des modèles plus petits. TAO est une méthode très flexible qui montre la puissance du calcul en temps de test pour le développement d'IA spécialisé, et nous pensons qu'elle donnera aux développeurs un nouvel outil puissant et simple à utiliser aux côtés du prompting et du fine-tuning.
Les clients Databricks utilisent déjà TAO sur Llama en avant-première privée. Remplissez ce formulaire pour exprimer votre intérêt à l'essayer sur vos tâches dans le cadre de l'avant-première privée. TAO est également intégré dans plusieurs de nos futures mises à jour et lancements de produits d'IA - restez à l'écoute !
¹ Auteurs : Raj Ammanabrolu, Ashutosh Baheti, Jonathan Chang, Xing Chen, Ta-Chung Chi, Brian Chu, Brandon Cui, Erich Elsen, Jonathan Frankle, Ali Ghodsi, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Jose Javier Gonzalez Ortiz, Sean Owen, Mihir Patel, Mansheej Paul, Cory Stephenson, Alex Trott, Ziyi Yang, Matei Zaharia, Andy Zhang, Ivan Zhou
² Nous utilisons o3-mini-medium tout au long de ce blog.
³ Il s'agit du benchmark BIRD-SQL modifié pour le dialecte et les produits SQL de Databricks.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.