Inférence LLM OSS plus rapide et sécurisée avec la mise en cache des invites.
par Pei-Lun Liao, Asfandyar Qureshi, Roshan Regula, Bruce Fontaine, James Thomas et Chenyang Yu
L'inférence des grands modèles de langage (LLM) implique souvent des invites répétées — pensez à la même invite système ou d'instruction apparaissant dans des milliers de requêtes. Retraiter ce préfixe identique pour chaque appel gaspille des cycles de calcul, augmente la latence et accroît les coûts.
La mise en cache des invites élimine cette redondance, offrant :
La mise en cache des invites peut être une technique puissante pour améliorer la qualité d'un modèle dans des domaines spécifiques sans compromettre le débit de jetons du modèle. Les requêtes peuvent partager une grande invite système spécifique au domaine, le coût de calcul de cette invite partagée étant amorti sur toutes ces requêtes. Les modèles de pointe, tels que Claude, utilisent des invites système qui font des milliers de jetons sous le capot. De plus, dans nos recherches récemment publiées, nous avons montré que l'optimisation automatisée des invites permet aux modèles open-source de surpasser la qualité des modèles de pointe pour les tâches d'entreprise.
Databricks fournit déjà une mise en cache des invites intégrée pour les modèles propriétaires (GPT, Gemini, Claude). Nous avons maintenant étendu cette capacité aux modèles open-weights qui alimentent nos API de modèles fondamentaux (FMAPIs) pour les charges de travail d'inférence par lots, de paiement à l'utilisation et de débit provisionné. Elle s'applique également à tous les services de niveau supérieur alimentés par un modèle fondamental, par exemple, Agent Bricks, Genie, AI Functions.
La mise en cache des invites est désormais prise en charge pour les modèles OSS suivants hébergés sur Databricks :
Nous continuerons à déployer cette fonctionnalité sur nos autres modèles. La sécurité est une préoccupation de premier ordre chez Databricks. Les caches d'invites sont isolés, résident uniquement dans la mémoire volatile et ne sont jamais persistants. Fait important, la mise en cache est implicite : les clients n'ont rien à configurer, notre système est conçu pour exécuter automatiquement la mise en cache et la réutilisation des invites afin d'améliorer le débit.
Nous avons d'abord déployé la mise en cache des invites sur nos modèles GPT‑OSS et avons immédiatement constaté des gains mesurables dans l'un des pipelines d'inférence par lots de production à grande échelle :

En réutilisant automatiquement les caches KV pour les invites identiques, Databricks vous permet d'exécuter des LLM open-source plus rapidement, de manière plus rentable et avec une plus grande sécurité, le tout sans nécessiter de configuration supplémentaire. Que vous serviez des conversations en temps réel, traitiez par lots de grandes collections de documents ou construisiez des agents IA, la mise en cache des invites peut transformer un bon pipeline d'inférence en un excellent pipeline. Essayez-la lors de votre prochaine implémentation de modèle OSS et observez l'augmentation des métriques de performance.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.