Pour entraîner les modèles d'intelligence artificielle (IA) et de machine learning (ML) dans un but spécifique, les scientifiques des données et les ingénieurs ont établi qu'il était plus facile et moins coûteux de modifier des grands modèles de langage (LLM) de fondation pré-entraînés que d'entraîner de nouveaux modèles en partant de rien. Un LLM de fondation est une IA puissante et généraliste, entraînée sur d'immenses datasets pour comprendre et générer du texte semblable à celui des humains dans un large éventail de sujets et de tâches.
En tirant parti de l'apprentissage profond des modèles existants, il devient possible de réduire la puissance de calcul et la quantité de données orchestrées nécessaires pour adapter un modèle à des usages spécifiques.
L'affinement consiste à adapter ou compléter des modèles pré-entraînés en les entraînant sur des datasets réduits et spécialisés. Ce processus est devenu une étape essentielle du cycle de développement des LLM : il permet d'adapter les capacités linguistiques brutes des modèles de fondation pour une variété de cas d'utilisation.
Comment fonctionne l'affinement des LLM
Les grands modèles de langage pré-entraînés ont exploité de très grandes quantités de données pour parvenir à comprendre le langage naturel et à fournir des réponses humaines à une question. Ils constituent donc le point de départ idéal pour un modèle de base.
L'affinement de ces modèles améliore leur capacité à réaliser des tâches spécifiques – produire des analyses de sentiment, répondre à des questions ou résumer de documents, par exemple – avec davantage de précision. Il existe des LLM tiers, mais affiner des modèles avec les données d'une organisation permet d'obtenir des résultats spécialisés et contextualisés.
Importance et avantages de l'affinement
L'affinement associe l'intelligence des LLM généralistes aux données d'une entreprise pour adapter les modèles d'IA générative à ses besoins commerciaux particuliers, et obtenir des degrés de spécialisation et de pertinence plus élevés. Même les petites entreprises peuvent développer des modèles personnalisés en phase avec leurs besoins et leurs budgets.
L'affinement évite en grande partie de devoir investir dans une infrastructure coûteuse pour entraîner des modèles à partir de zéro. En affinant des modèles pré-entraînés, les organisations peuvent passer plus rapidement à la mise sur le marché en bénéficiant d'une latence d'inférence réduite, dans la mesure où le modèle est adapté avec efficacité à des cas d'utilisation spécifiques.
Les techniques d'affinement réduisent l'utilisation de la mémoire et accélèrent le processus d'entraînement des modèles de fondation. Elles les enrichissent de connaissances spécialisées et contextualisées, avec des besoins moindres en main-d'œuvre et en ressources.
Lorsque vous affinez un modèle de langage avec vos données propriétaires sur Databricks, vos datasets ne sont pas exposés aux risques tiers inhérents aux environnements d'entraînement généraux.
Types d'affinement
L'affinement peut améliorer la précision et la pertinence des résultats d'un modèle. Celui-ci sera alors plus efficaces dans des applications spécialisées que les modèles de fondation ayant reçu un entraînement généraliste. Ce processus vise à adapter le modèle pour qu'il comprenne et génère du texte propre à un domaine ou à un secteur particulier. Le modèle est affiné à l'aide d'un corpus issu du domaine cible pour gagner en contexte et approfondir sa maîtrise des tâches spécialisées. L'affinement peut être fortement consommateur de ressources, mais il devient de plus en plus efficace avec le développement de nouvelles techniques. Voici quelques approches couramment employées pour affiner des LLM :
Réglage fin efficace des paramètres
Le réglage fin efficace des paramètres (PEFT) est un ensemble de techniques conçues pour adapter les grands modèles pré-entraînés à des tâches spécifiques, en minimisant les ressources de calcul et les besoins en stockage. Cette approche convient particulièrement aux applications dont les ressources sont limitées et à celles qui requièrent plusieurs tâches d'affinement. Les méthodes PEFT, telles que l'adaptation de bas rang (LoRA) et le réglage fin basé sur des adaptateurs, introduisent un petit nombre de paramètres entraînables au lieu de mettre à jour l'ensemble du modèle. Composants clés du PEFT, les couches d'adaptation sont des modèles légers et entraînables insérés dans chaque couche d'un modèle pré-entraîné.
Ces adaptateurs se déclinent en plusieurs variantes – séquentiels, résiduels, parallèles – et ajustent la sortie du modèle sans modifier les pondérations d'origine, afin de les préserver tout en apportant des ajustements spécifiques à la tâche. Par exemple, la LoRA affinera efficacement les grands modèles de langage pour générer des descriptions de produits. D'autre part, la LoRA quantifiée (QLoRA) a pour priorité de réduire la charge de mémoire et de calcul en utilisant la quantification. La QLoRA optimise la mémoire en utilisant des matrices de faible rang quantifiées, ce qui la rend très efficace lorsque les ressources matérielles sont limitées.
L'affinement fournit au modèle un dataset plus ciblé : de la terminologie spécialisée, par exemple, ou des interactions axées sur une tâche. Le modèle est ainsi en mesure de générer des réponses plus pertinentes pour le cas d'utilisation. Les applications sont diverses, et cela permet aussi bien de compléter les connaissances de base d'un modèle que d'étendre un modèle à des tâches et des domaines entièrement nouveaux.
Il est également possible d'affiner des LLM pour répondre à des applications industrielles spécifiques. Dans le domaine de la santé, par exemple, l'affinement à l'aide de données médicales propriétaires peut permettre de produire des diagnostics et des traitements plus précis. De même, dans les applications financières, des modèles affinés peuvent détecter la fraude en analysant les données de transaction et le comportement des clients.
Les LLM sont des modèles de machine learning qui effectuent des tâches liées au langage : traduction, réponse à des questions, conversation, résumé de contenu, génération de contenu et de code. Les LLM extraient la valeur de vastes corpus de données et rendent cet « apprentissage » directement accessible. Ce processus d'« apprentissage par transfert » utilise des modèles pré-entraînés pour calculer des caractéristiques qui seront utilisées dans d'autres modèles en aval. Cela réduit considérablement le temps nécessaire pour entraîner et ajuster un nouveau modèle. Voir Featurization pour l'apprentissage par transfert pour plus d'informations et un exemple.
Quand l'affinement devient inutile
Pour éviter tout affinement excessif du modèle, abstenez-vous d'ajouter ou d'affiner des tâches trop similaires à celles du modèle de base, car il pourrait perdre sa capacité à généraliser à partir des datasets d'origine. Vous pouvez, au contraire, augmenter la précision du modèle en élargissant les datasets d'entraînement.
Les efforts de démocratisation de l'IA générative se poursuivent pour réduire les ressources de calcul nécessaires et offrir des moyens fiables de personnaliser les déploiements de LLM. L'affinement des LLM à grande échelle va mobiliser des outils plus automatisés et intelligents pour limiter davantage la consommation de ressources.
Des avancées comme la LoRA simplifient ce processus et ouvrent la voie à des outils plus intelligents, capables d'accéder à des sources externes pour vérifier en temps réel les résultats du modèle et améliorer ses performances de façon autonome.
Avec une intégration plus poussée, on peut envisager des LLM à même de générer leurs propres datasets d'entraînement en créant des questions et en s'affinant en fonction des réponses sélectionnées. Cette approche facilitera l'intégration des LLM affinés dans les workflows des entreprises et l'optimisation des opérations commerciales.
Dans de nombreux scénarios, les modèles d'IA actuels atteignent un niveau de précision proche de celui des humains, voire équivalent. Mais il subsiste des inquiétudes quant à l'éthique de l'IA et à ses biais dans le développement des LLM, et les fournisseurs doivent s'attacher à maintenir des pratiques d'IA responsables et équitables.
Lorsque vous entraînez des LLM pour des tâches, un domaine ou des données spécifiques, vous élargissez les capacités de ces modèles généralistes. Avec un service unifié pour l'entraînement, le déploiement, la gouvernance, l'interrogation et la surveillance des modèles, vous pouvez gérer tous les modèles au même endroit et les interroger avec une seule API – une approche à la fois économique, efficace, précise et durable.
À l'avenir, les avancées de l'affinement multimodal sont destinées à repousser les limites des modèles d'IA, en leur permettant d'intégrer différents types de données (images, texte, voix) dans une même solution affinée. En devenant sans cesse plus précis, efficaces et évolutifs, les modèles d'IA affinés vont s'intégrer plus profondément dans les opérations commerciales, et leur adoption va se généraliser dans tous les secteurs.
