Un guide pratique pour le réglage fin des LLM

Découvrez comment fonctionne le réglage fin des LLM, quand l'utiliser par rapport au RAG, et comment choisir la bonne méthode — du réglage fin supervisé au PEFT et à LoRA.

par Équipe Databricks

Le réglage fin des LLM est le processus d'adaptation d'un modèle pré-entraîné sur un jeu de données spécifique à une tâche afin d'améliorer la précision, de réduire les hallucinations et de produire des sorties qui reflètent des connaissances spécifiques au domaine non présentes dans le modèle de base.
Les méthodes de réglage fin économes en paramètres (PEFT), telles que LoRA et QLoRA, permettent aux organisations d'affiner les grands modèles linguistiques pour une fraction du coût de calcul du réglage fin complet, en préservant la compréhension générale du langage tout en acquérant des capacités spécialisées.
Le réglage fin et la génération augmentée par récupération (RAG) sont des techniques complémentaires : le réglage fin modifie durablement le comportement du modèle pour le style et les performances spécifiques à la tâche, tandis que le RAG fournit un accès dynamique aux connaissances propriétaires à jour au moment de l'inférence.

Ce guide s'adresse aux ingénieurs ML, aux scientifiques des données et aux praticiens de l'IA qui ont besoin d'adapter les grands modèles de langage (LLM) à des tâches, des domaines ou des applications spécifiques. Nous couvrons l'intégralité du cycle de vie du réglage fin des LLM — de la décision de régler finement ou non, en passant par la préparation des données, la sélection des méthodes, les considérations d'entraînement, et le déploiement — avec suffisamment de profondeur pour éclairer les décisions de production réelles.

Les sections ci-dessous abordent les décisions les plus importantes dans chaque projet de réglage fin : quand le réglage fin surpasse l'ingénierie des prompts, comment choisir entre le réglage fin supervisé, le réglage fin complet, et les approches économes en paramètres, et quelles sont les meilleures pratiques pour réduire le risque de dégradation des performances du modèle en production.

Aperçu du réglage fin et des modèles d'IA

Le réglage fin des LLM est le processus de poursuite de l'entraînement d'un modèle pré-entraîné sur un ensemble de données plus petit et spécifique à une tâche afin d'améliorer ses performances sur cette tâche particulière ou dans ce domaine particulier. Plutôt que de construire un nouveau modèle à partir de zéro — une entreprise qui exige d'énormes ressources informatiques et de données — le réglage fin exploite la compréhension générale du langage déjà encodée dans un modèle pré-entraîné et la redirige vers un objectif plus ciblé.

Le principal avantage est l'efficacité. Le réglage fin permet aux organisations de personnaliser le comportement et la qualité de sortie d'un modèle — que l'objectif soit d'améliorer les performances du modèle sur une tâche de classification, d'obtenir une sortie plus cohérente pour la génération de contenu, ou d'acquérir des connaissances spécifiques à un domaine à l'aide de données personnalisées — sans l'investissement en infrastructure du pré-entraînement complet. Pour les équipes d'entreprise, cela signifie un temps de mise en production plus rapide, une latence d'inférence réduite pour les tâches spécialisées, et un plus grand contrôle sur ce que le modèle génère et ne génère pas. Un modèle adapté à un domaine surpasse constamment un modèle générique sur les tâches de ce domaine, en particulier lorsque la terminologie, le ton ou les schémas de raisonnement diffèrent considérablement du texte général d'Internet.

Les principaux compromis à peser sont les exigences en matière de données, le coût de calcul et le risque d'oubli catastrophique — le phénomène où la capacité d'un modèle à performer sur des tâches en dehors du domaine de réglage fin se dégrade pendant l'entraînement. La sélection des bonnes techniques de réglage fin est le principal levier pour gérer ces compromis, et le choix correct dépend de la tâche, des données de réglage fin disponibles et des ressources disponibles pour l'entraînement.

Cycle de vie des LLM et quand régler finement un LLM

Avant de s'engager dans un projet de réglage fin, les équipes doivent définir une vision claire du projet : quelle capacité spécifique le modèle doit-il acquérir, à quoi ressemble le succès, et quelles données sont disponibles pour soutenir l'entraînement ? La décision de régler finement le modèle — plutôt que de se fier uniquement aux prompts — doit toujours être fondée sur un écart concret entre ce que le modèle de base fournit actuellement et ce que la production exige.

Décider entre l'ingénierie des prompts et le réglage fin

La première décision la plus importante est de savoir si la tâche nécessite un réglage fin. L'ingénierie des prompts — la conception de prompts ou de modèles de prompts qui guident la sortie d'un modèle — est plus rapide, moins chère et réversible. De nombreuses tâches qui semblent initialement nécessiter un réglage fin peuvent être résolues avec des prompts bien conçus ou quelques exemples fournis en contexte, une technique connue sous le nom d'apprentissage few-shot. L'expressivité disponible grâce à l'ingénierie des prompts est limitée par les capacités du modèle de base, mais pour une grande partie des cas d'utilisation d'entreprise, cette contrainte n'est pas contraignante.

Le réglage fin vaut la peine d'être poursuivi lorsque l'ingénierie des prompts échoue constamment à atteindre la qualité de sortie souhaitée, même avec quelques exemples, lorsque la tâche nécessite des connaissances ou une terminologie spécifiques au domaine que le modèle de base ne possède pas, lorsque les considérations de latence ou de coût favorisent un modèle réglé finement plus petit par rapport à un grand modèle à usage général, ou lorsque l'organisation a besoin d'un contrôle strict sur le comportement du modèle — par exemple, pour empêcher le modèle de générer des réponses hors sujet dans une application destinée aux clients.

Cas d'utilisation bénéficiant d'un modèle réglé finement

Les cas d'utilisation où un modèle réglé finement apporte une valeur constante comprennent : les applications de service client qui nécessitent des réponses précises et conformes à la marque, faisant référence à une documentation propriétaire ; les tâches de génération de code où le modèle doit suivre des modèles ou des API spécifiques à l'organisation ; les applications médicales ou juridiques où des connaissances et un raisonnement précis spécifiques au domaine sont importants ; et les flux de travail de génération de contenu nécessitant une voix cohérente qui diverge des distributions d'entraînement générales. Dans chaque cas, la sortie du modèle doit refléter des connaissances ou des modèles de comportement qui ne sont pas présents dans les données d'entraînement d'origine du modèle de base.

Processus de réglage fin : Étapes de bout en bout

Le processus de réglage fin suit un schéma cohérent, quelle que soit la méthode choisie. Les équipes commencent par la définition du problème et la collecte des données, passent à la sélection du modèle de base et au choix de la méthode de réglage fin, effectuent l'entraînement avec une évaluation itérative, et terminent par le déploiement et la surveillance. Chaque phase du processus d'entraînement doit être planifiée avant le début des travaux — les ajustements réactifs en cours d'entraînement sont coûteux et produisent rarement des résultats optimaux.

L'allocation des ressources informatiques et du budget doit être déterminée tôt. Le réglage fin complet des grands modèles nécessite une mémoire GPU importante pour les états de l'optimiseur et l'accumulation des gradients. Les méthodes économes en paramètres réduisent considérablement cette exigence. La définition des métriques de succès avant l'entraînement — scores de référence, seuils de précision spécifiques à la tâche, exigences de latence — fournit une condition d'arrêt claire et aide les équipes à identifier la configuration optimale des hyperparamètres plutôt que de rechercher arbitrairement. La plupart des projets de réglage fin bénéficient de plusieurs cycles d'entraînement avec des données progressives ou un raffinement des hyperparamètres plutôt que d'une seule tentative globale.

Préparation des données

La préparation des données est souvent la phase la plus longue du réglage fin des LLM et le facteur le plus directement responsable de la qualité finale du modèle. Le principe selon lequel un ensemble de données plus petit d'exemples de haute qualité surpasse constamment un ensemble de données plus grand avec des données bruitées est bien établi dans la littérature sur le réglage fin et s'applique à tous les domaines.

Les données de réglage fin peuvent prendre plusieurs formes : données structurées formatées sous forme de paires prompt-complétion, documents texte non structurés, exemples de code, ou ensembles instruction-réponse. Les données d'entrée fournies au modèle pendant l'entraînement doivent refléter la distribution réelle des entrées que le modèle rencontrera en production. Cela signifie sélectionner des exemples qui couvrent toute la gamme des requêtes attendues, pas seulement les plus courantes, et inclure toute donnée propriétaire ou vocabulaire spécifique au domaine que le modèle doit apprendre.

Le nettoyage et la normalisation des entrées de l'ensemble de données impliquent la suppression des doublons, la correction des incohérences de formatage et le filtrage des exemples de faible qualité. Un formatage cohérent est particulièrement important : les exemples d'entraînement doivent refléter exactement la manière dont le modèle sera utilisé en production, y compris les prompts système, les délimiteurs et la structure de sortie attendue. Les écarts entre le format d'entraînement et le format d'inférence sont une source courante de dégradation de la qualité, facile à prévenir et difficile à diagnostiquer après coup.

La création de divisions d'entraînement, de validation et de test garantit que le modèle se généralise à de nouvelles données plutôt que de mémoriser l'ensemble d'entraînement. L'ensemble de validation guide les décisions d'arrêt précoce — si la perte de validation stagne ou augmente pendant l'entraînement, l'arrêt avant le surajustement préserve la compréhension générale du langage acquise pendant le pré-entraînement. La documentation de la provenance des données, y compris les règles d'étiquetage, les descriptions des sources et le suivi des versions, soutient la reproductibilité et facilite la gestion des cycles d'entraînement ultérieurs.

Choix d'un modèle de base et d'un modèle réglé finement cible

La sélection du modèle de base façonne toutes les décisions en aval dans le processus de réglage fin. Un modèle pré-entraîné qui correspond déjà étroitement à la tâche cible minimise la quantité de réglage fin nécessaire, réduisant ainsi le coût de calcul et le risque de surajustement. L'approche d'évaluation pratique consiste à exécuter le modèle de base candidat sur un échantillon d'exemples de la tâche cible avant de s'engager dans un cycle de réglage fin complet — les performances de référence révèlent la quantité de travail d'adaptation nécessaire.

La taille du modèle est un critère de sélection clé. Les modèles plus grands atteignent généralement une précision plus élevée sur les tâches complexes, mais ils exigent également plus de mémoire pendant l'entraînement et produisent une latence d'inférence plus élevée. Lorsque les contraintes de latence sont strictes — par exemple, dans les applications en temps réel destinées aux clients — un modèle plus petit réglé finement sur des données spécifiques à la tâche surpasse souvent un modèle générique plus grand en combinant une latence plus faible avec une précision comparable sur la distribution cible étroite. Le choix de commencer par un modèle pré-entraîné général ou par un modèle déjà réglé finement (comme un modèle suivant les instructions) dépend de la question de savoir si la tâche cible implique un comportement de suivi d'instructions que le modèle de base ne présente pas déjà.

Méthodes pour régler finement les LLM

Le paysage des techniques de réglage fin comprend le réglage fin supervisé, le réglage fin d'instructions, le réglage fin complet et les méthodes de réglage fin économes en paramètres (PEFT). Le réglage fin standard met à jour les poids du modèle sur un ensemble de données d'entraînement étiqueté pour une tâche spécifique — l'approche la plus courante pour la plupart des projets de production. Le réglage fin séquentiel étend ce schéma en adaptant un modèle à travers plusieurs tâches connexes en étapes, où chaque cycle d'entraînement s'appuie sur ce que le cycle précédent a établi. L'apprentissage multi-tâches adopte une approche différente, s'entraînant sur plusieurs tâches simultanément afin qu'un seul modèle réglé finement puisse gérer différentes tâches sans déploiements séparés.

Chaque approche implique des compromis différents entre expressivité, coût de calcul et risque de dégradation des capacités générales du modèle de base. Le choix correct dépend du volume et de la qualité des données d'entraînement disponibles, de la complexité de la tâche cible et des ressources disponibles pour l'entraînement et le service.

Instruction Fine Tuning

L'ajustement fin des instructions adapte un modèle de langage pré-entraîné pour suivre des instructions en langage naturel en l'entraînant sur un ensemble de données de paires instruction-réponse. Cette technique est responsable du comportement conversationnel et de suivi des instructions caractéristique des modèles de chat modernes. L'ensemble de données d'entraînement se compose d'exemples structurés sous forme d'instruction accompagnée d'une sortie souhaitée — le modèle apprend à mapper les instructions à des réponses appropriées plutôt qu'à simplement continuer le texte.

La création de paires instruction-réponse de haute qualité est le principal levier de qualité dans l'ajustement fin des instructions. La standardisation des modèles d'instructions dans l'ensemble de données — en utilisant des conventions de formulation, de formatage et de longueur cohérentes — réduit le bruit et aide le modèle à apprendre la correspondance prévue de manière claire. L'équilibrage de la longueur des instructions est également important : des instructions trop concises peuvent ne pas fournir suffisamment de contexte pour que le modèle comprenne la tâche, tandis que des instructions trop verbeuses peuvent rendre plus difficile pour le modèle d'identifier l'objectif principal. L'ajustement fin des instructions est la base de la plupart des projets d'ajustement fin de LLM ciblant des applications orientées client ou basées sur le dialogue qui nécessitent des interactions personnalisées.

Supervised Fine Tuning (SFT)

L'ajustement fin supervisé est un processus d'ajustement fin dans lequel des paires invite-réponse étiquetées sont utilisées pour mettre à jour les poids du modèle. Le modèle est entraîné à produire la sortie étiquetée étant donné l'invite d'entrée, avec une perte calculée par rapport aux réponses étiquetées. Le SFT est l'approche standard pour la plupart des projets d'ajustement fin spécifiques à une tâche et est la méthode à laquelle la plupart des praticiens font référence lorsqu'ils utilisent le terme « ajustement fin » sans qualification.

La validation sur des exemples mis de côté tout au long de l'entraînement est essentielle pour l'ajustement fin supervisé. Étant donné que le modèle est mis à jour sur la base de données étiquetées qui reflètent les préférences humaines ou les critères de correction spécifiques à la tâche, l'ensemble de validation doit représenter la même distribution de qualité que les données d'entraînement. L'ajustement de la fonction de perte — par exemple, en pondérant certains types de réponses plus fortement pour correspondre aux modèles de préférences humaines — peut améliorer davantage l'alignement entre les objectifs d'ajustement fin et les exigences de performance du monde réel.

Full Fine Tuning

L'ajustement fin complet permet des mises à jour de gradient sur tous les poids du modèle pendant le processus d'entraînement, mettant à jour l'ensemble du modèle plutôt qu'un sous-ensemble de composants. C'est l'approche la plus expressive : en modifiant l'ensemble du modèle, les équipes obtiennent la plus grande amélioration potentielle des performances sur la tâche cible. L'ajustement fin complet peut modifier durablement le comportement et le style linguistique du modèle d'une manière que les approches plus contraintes ne peuvent pas.

Le coût de l'ajustement fin complet évolue avec la taille du modèle. Pour les grands modèles, la mise à disposition d'une mémoire GPU suffisante pour stocker simultanément les états de l'optimiseur, les activations et les poids du modèle nécessite un investissement d'infrastructure important. La capture fréquente d'instantanés des points de contrôle du modèle pendant l'entraînement est essentielle — si l'entraînement diverge ou si le modèle commence à sur-apprendre, les points de contrôle permettent aux équipes de récupérer un bon état sans redémarrer à partir de zéro. Malgré les exigences en ressources, l'ajustement fin complet reste le bon choix lorsque la tâche exige des changements comportementaux profonds et que des données d'entraînement suffisantes et de haute qualité sont disponibles pour la supporter.

Parameter-Efficient Fine Tuning

L'ajustement fin efficace en paramètres (PEFT) est une suite de techniques conçues pour adapter de grands modèles pré-entraînés à des tâches spécifiques tout en minimisant les ressources informatiques et les besoins de stockage. Plutôt que de mettre à jour l'ensemble du modèle, les méthodes PEFT gèlent la plupart des poids du modèle d'origine et n'exposent que des composants spécifiques du modèle — généralement de nouvelles couches d'adaptation — pour les mises à jour pendant l'entraînement. Le résultat est un modèle ajusté qui nécessite beaucoup moins de mémoire et de calcul qu'un ajustement fin complet, tout en obtenant souvent des performances comparables sur la tâche.

Le stockage séparé des adaptateurs du modèle de base est un avantage opérationnel clé du PEFT. Un seul modèle de base peut prendre en charge plusieurs variantes ajustées en remplaçant différents adaptateurs au moment de l'inférence, ce qui permet de servir différentes tâches ou différentes tâches pour différents segments d'utilisateurs sans dupliquer le modèle complet. Les méthodes PEFT réduisent également le risque d'oubli catastrophique en limitant les mises à jour aux paramètres de l'adaptateur, préservant ainsi la compréhension générale du langage encodée dans les poids du modèle d'origine figés.

Efficient Fine Tuning PEFT: LoRA and QLoRA

Low Rank Adaptation (LoRA) est actuellement la méthode PEFT la plus utilisée. LoRA applique des modules de décomposition de rang faible aux couches d'attention de l'architecture du transformeur, introduisant un petit nombre de paramètres entraînables tout en gardant les poids du modèle d'origine figés. Étant donné que le rang des matrices d'adaptateur est beaucoup plus faible que les matrices de poids complètes qu'elles modifient, LoRA permet des réductions substantielles du nombre de paramètres entraînables — souvent par ordres de grandeur — par rapport à l'ajustement fin complet.

QLoRA étend LoRA en le combinant avec la quantification des poids, réduisant le modèle de base à une précision de 4 bits avant l'entraînement. Cela réduit considérablement l'utilisation de la mémoire, rendant possible l'ajustement fin de très grands modèles sur un seul GPU ou un petit cluster. Les économies de taille d'adaptateur et de stockage de LoRA et QLoRA sont substantielles : les modèles ajustés de qualité production construits avec ces méthodes peuvent souvent être stockés et servis à une fraction du coût d'un homologue entièrement ajusté. La mesure de la taille de l'adaptateur en pourcentage de la taille du modèle de base — et la comparaison du coût d'inférence entre les méthodes — font partie intégrante de la décision de sélection de la méthode. Pour la plupart des équipes cherchant à ajuster finement un LLM en production, commencer par LoRA avant d'envisager un ajustement fin complet est la voie recommandée pour des résultats optimaux.

Training Considerations and Context Window

Plusieurs hyperparamètres ont un effet disproportionné sur la qualité de l'ajustement fin. La taille du lot affecte la stabilité des mises à jour de gradient : des lots plus grands réduisent la variance des estimations de gradient mais nécessitent plus de mémoire, tandis que des lots plus petits peuvent introduire un bruit bénéfique qui améliore la généralisation. Le taux d'apprentissage est l'hyperparamètre le plus sensible — l'utilisation de taux d'apprentissage faibles empêche la perturbation des connaissances pré-entraînées déjà encodées dans les poids du modèle. Une plage typique de taux d'apprentissage pour l'ajustement fin est de 10⁻⁵ à 10⁻⁴, souvent appliquée avec une phase de préchauffage et un calendrier de décroissance. L'identification de la configuration optimale du taux d'apprentissage, de la taille du lot et du nombre d'époques d'entraînement nécessite généralement un court balayage des valeurs candidates avant de s'engager dans une course d'entraînement complète.

La gestion de la fenêtre de contexte est une considération d'entraînement importante mais parfois négligée. La fenêtre de contexte définit la quantité maximale de données d'entrée que le modèle peut traiter au moment de l'inférence. Les exemples d'entraînement qui dépassent la fenêtre de contexte seront tronqués, ce qui pourrait dégrader la qualité du modèle si les informations tronquées sont critiques pour la tâche cible. Les équipes doivent vérifier que leurs exemples d'entraînement tiennent dans la fenêtre de contexte après la tokenisation et surveiller l'utilisation de la fenêtre de contexte pendant l'inférence pour identifier les cas où le modèle déployé rencontre des entrées plus longues que sa distribution d'entraînement effective.

Code Generation and Specialized Use Cases

La génération de code est l'un des cas d'utilisation d'ajustement fin les plus précieux et les mieux définis. Un modèle ajusté sur des bases de code spécifiques à l'organisation, des API internes ou des bibliothèques propriétaires apprend les modèles, les conventions et les schémas de nommage que les modèles à usage général entraînés sur des référentiels de code publics ne connaissent pas. Les données d'entraînement pour l'ajustement fin de la génération de code doivent inclure des exemples représentatifs d'échantillons de code complets et syntaxiquement valides plutôt que des extraits isolés, garantissant que le modèle apprend la structure du code de bout en bout ainsi que les modèles locaux.

L'inclusion de tests de formatage pour le code généré dans le cadre des données d'entraînement — exemples démontrant une indentation correcte, des conventions de docstring et des styles d'annotation de type — améliore la capacité du modèle à produire une sortie qui répond aux normes de l'organisation sans post-traitement. L'ajout d'exemples de validation de style de tests unitaires à l'ensemble de données d'ajustement fin, où le modèle reçoit à la fois une fonction et ses cas de test attendus, peut encore améliorer la qualité et la correction du code généré en production. Au-delà de la génération de code, des principes similaires s'appliquent à d'autres cas d'utilisation spécialisés : la génération de notes médicales, le résumé de documents juridiques et la rédaction de réponses de service client bénéficient tous d'ensembles de données d'ajustement fin spécifiques au domaine qui reflètent la distribution réelle des entrées de production.

Evaluation, Deployment, and Monitoring for Fine Tuned Models

L'évaluation d'un modèle ajusté nécessite à la fois des benchmarks automatisés et un examen humain. L'évaluation automatisée sur l'ensemble de validation fournit un signal rapide et reproductible pendant l'entraînement, mais les scores de benchmark peuvent diverger de la qualité du monde réel d'une manière que les évaluateurs humains détectent de manière fiable. Pour les applications où la qualité de la sortie affecte directement l'expérience utilisateur — service client, génération de contenu, assistance médicale — l'évaluation humaine d'un échantillon représentatif est une porte d'entrée finale essentielle avant le déploiement en production.

Le déploiement des modèles entraînés implique généralement le partitionnement des modèles pour les grands modèles ou le chargement d'adaptateurs pour les modèles basés sur PEFT. Ce dernier simplifie le déploiement : le modèle de base est chargé une fois et les adaptateurs sont échangés à chaud pour différentes tâches ou segments d'utilisateurs. La mise en place d'une surveillance continue garantit que le modèle déployé maintient des performances optimales à mesure que l'utilisation en production évolue. À mesure que la distribution des entrées change avec le temps, le suivi des métriques de qualité de sortie est le principal mécanisme de détection de la dérive. Le réentraînement sur des données fraîches à une cadence définie est l'approche standard pour maintenir des performances optimales — un modèle déployé qui n'est pas régulièrement actualisé se dégradera progressivement à mesure que les entrées de production s'éloignent de la distribution d'entraînement d'origine.

RAG vs. Fine Tuning : Comparaison des méthodes

La génération augmentée par récupération (RAG) et le fine-tuning des LLM sont deux approches complémentaires pour améliorer les performances des modèles pour des cas d'utilisation spécifiques, mais elles abordent des problèmes différents. La génération augmentée par récupération fonctionne en combinant l'invite d'un utilisateur avec un contexte pertinent récupéré d'une source de connaissances externe — une base de données vectorielle ou un magasin de documents — avant d'envoyer l'invite augmentée au modèle. Le fine-tuning, en revanche, modifie directement les paramètres du modèle afin que les poids mis à jour encodent les connaissances ou le comportement souhaités.

La différence pratique est importante pour la sélection des cas d'utilisation. Le RAG est le meilleur choix lorsque les informations dont le modèle a besoin changent fréquemment — documentation du support client, bases de connaissances internes, directives réglementaires — car le magasin de connaissances peut être mis à jour sans modifier le modèle. Le fine-tuning est le meilleur choix lorsque la tâche cible nécessite que le modèle apprenne un nouveau style linguistique, suive des conventions spécifiques au domaine ou produise des sorties qui diffèrent structurellement de ce que produit le modèle de base. Le fine-tuning modifie durablement le comportement du modèle d'une manière que le RAG ne peut pas.

Le RAG et le fine-tuning ne s'excluent pas mutuellement. Un modèle fine-tuné intégré dans un pipeline RAG combine un comportement adapté au domaine avec un accès dynamique aux connaissances externes à jour. Databricks AI Search permet des bases de données vectorielles auto-mises à jour qui s'intègrent proprement avec des modèles fine-tunés déployés via Databricks, ce qui permet de combiner facilement les deux méthodes dans un seul système de production. Le fine-tuning d'un modèle d'embedding pour la récupération spécifique au domaine, par exemple, peut améliorer de manière significative la qualité du contexte récupéré dans un système RAG.

Outils, Frameworks et où effectuer le Fine Tuning

L'écosystème du fine-tuning offre plusieurs options solides en fonction des besoins de l'organisation. La bibliothèque Hugging Face Transformers et les utilitaires d'entraînement associés (Trainer, PEFT, TRL) sont le choix open-source dominant pour les tâches de fine-tuning personnalisées. Les API de fine-tuning gérées par des fournisseurs tels qu'OpenAI simplifient la couche d'infrastructure au détriment d'une flexibilité réduite sur le processus d'entraînement. Les fournisseurs de GPU cloud facilitent la mise à disposition des ressources de calcul nécessaires pour les exécutions de fine-tuning à grande échelle sans avoir à gérer de matériel sur site. Databricks Training sur Databricks fournit un environnement de bout en bout pour le fine-tuning des LLM, combinant la gestion des données, l'orchestration de l'entraînement, la mise à disposition de modèles et le suivi des expériences sous un modèle de gouvernance unifié.

MLflow, une plateforme open-source de gestion du cycle de vie des modèles profondément intégrée à Databricks, gère la journalisation des expériences, le versionnage des modèles et la configuration du framework d'évaluation — ce qui permet de comparer facilement les exécutions de fine-tuning et de suivre quelles configurations ont produit quels résultats. Consultez la documentation MLflow pour connaître les modèles d'intégration avec les modèles fine-tunés, la gestion des adaptateurs et les pipelines d'évaluation. Le choix de l'endroit où effectuer le fine-tuning est finalement une question de gouvernance des données autant que d'infrastructure : les organisations ayant des exigences strictes concernant les données propriétaires privilégieront les plateformes qui maintiennent les données d'entraînement dans leur propre environnement plutôt que de les transmettre à des services gérés externes.

Bonnes pratiques et pièges courants lors du Fine Tuning des LLM

Éviter le surajustement est le défi technique le plus courant dans le fine-tuning des grands modèles linguistiques. Les meilleures défenses sont l'augmentation des données (génération d'exemples d'entraînement supplémentaires qui reflètent la distribution cible), les méthodes PEFT qui limitent le nombre de paramètres entraînables et l'arrêt précoce basé sur la perte de validation. Un modèle qui surajuste les données d'entraînement ne généralisera pas aux entrées de production, produisant souvent des sorties incorrectes avec une grande confiance, difficiles à détecter sans une surveillance attentive de la qualité de sortie du modèle en production.

L'oubli catastrophique est l'autre risque majeur propre au fine-tuning. Lorsqu'un modèle est mis à jour de manière trop agressive sur un ensemble de données étroit et spécifique à une tâche, il peut perdre sa capacité à bien performer sur la large gamme de tâches que le modèle d'origine gérait avant l'entraînement. Les méthodes de fine-tuning efficaces en termes de paramètres sont la principale mesure d'atténuation : en gelant la plupart des poids du modèle de base et en ne mettant à jour que les paramètres de l'adaptateur, PEFT préserve la compréhension générale du langage tout en acquérant des capacités spécifiques à la tâche. La documentation des exécutions d'entraînement — hyperparamètres, versions des jeux de données, résultats d'évaluation — soutient la reproductibilité et facilite le diagnostic et la correction des problèmes lors des itérations ultérieures.

L'utilisation de faibles taux d'apprentissage empêche systématiquement la perturbation des connaissances pré-entraînées. La plage typique de taux d'apprentissage pour le fine-tuning de 10⁻⁵ à 10⁻⁴ reflète des preuves empiriques accumulées sur de nombreux domaines et familles de modèles. De même, l'utilisation d'un ensemble de données d'entraînement avec des exemples diversifiés et de haute qualité — même un petit — surpasse systématiquement l'entraînement sur des ensembles de données plus volumineux qui incluent des échantillons bruyants ou incohérents. Ces deux principes, pris ensemble, expliquent la majorité des échecs de fine-tuning en pratique.

Liste de contrôle étape par étape pour le Fine Tuning d'un LLM

La liste de contrôle suivante capture les points de décision et les actions clés dans un projet de fine-tuning de LLM bien structuré.

Premièrement, définir précisément la tâche cible et les métriques de succès — que doit faire le modèle et comment saurons-nous qu'il le fait bien ?
Deuxièmement, choisir le modèle de base approprié en évaluant des candidats de modèles pré-entraînés sur des entrées de tâche d'échantillon et en sélectionnant le modèle qui fournit la meilleure base pour la tâche cible.
Troisièmement, préparer et diviser les données de fine-tuning en ensembles d'entraînement, de validation et de test ; vérifier la cohérence du formatage ; documenter les règles d'étiquetage ; et filtrer les exemples de faible qualité.
Quatrièmement, sélectionner une méthode de fine-tuning en fonction des ressources de calcul disponibles, du volume de données et du degré de changement de comportement requis — méthodes PEFT pour la plupart des cas, fine-tuning complet lorsque un changement de comportement profond est nécessaire et que des données suffisantes sont disponibles.
Cinquièmement, exécuter un balayage d'entraînement initial avec des hyperparamètres conservateurs, en surveillant la perte de validation tout au long et en prenant des points de contrôle fréquemment.
Sixièmement, valider les résultats par rapport aux métriques de succès prédéfinies et itérer — en ajustant les données, les hyperparamètres ou la méthode — jusqu'à ce que le modèle atteigne le seuil de performance.
Après validation, déployer en utilisant une architecture appropriée à la méthode choisie et établir une surveillance continue pour la dérive en production.

Conclusion et prochaines étapes pour les déploiements Fine Tuned

Le fine-tuning des LLM offre un chemin pratique d'un modèle pré-entraîné à usage général à un modèle qui répond de manière cohérente aux exigences de précision, de style et de comportement d'une application d'entreprise spécifique. Le flux de travail recommandé — en commençant par l'approche la moins complexe (ingénierie des invites), en passant au fine-tuning si nécessaire, et en privilégiant les méthodes efficaces en termes de paramètres pour préserver la qualité du modèle de base — minimise les efforts perdus et réduit le risque d'échecs de production causés par le surajustement ou l'oubli catastrophique. Le fine-tuning aide à combler le fossé entre le comportement générique du modèle et les capacités spécialisées dont les organisations ont besoin pour obtenir des résultats optimaux.

Pour la plupart des équipes, la prochaine étape logique est un pilote : sélectionner un cas d'utilisation bien défini et à forte valeur ajoutée avec des données d'entraînement adéquates, choisir une méthode PEFT telle que LoRA ou QLoRA, et exécuter une évaluation structurée qui compare le modèle fine-tuné au modèle de base sur un ensemble de test réservé. Un pilote réussi renforce la confiance, valide le pipeline de données et d'infrastructure, et fournit un modèle qui peut être reproduit pour des cas d'utilisation supplémentaires. La combinaison du fine-tuning avec la génération augmentée par récupération et l'ingénierie des invites offre une boîte à outils flexible et testée en production pour le développement d'IA d'entreprise que Databricks prend en charge de bout en bout.

Questions fréquemment posées

Qu'est-ce que le fine-tuning des LLM ?

Le fine-tuning des LLM est le processus de poursuite de l'entraînement d'un grand modèle linguistique pré-entraîné sur un ensemble de données plus petit et spécifique à une tâche. Plutôt que d'entraîner un nouveau modèle à partir de zéro, le fine-tuning met à jour tout ou partie des poids du modèle pour améliorer ses performances sur une tâche particulière ou dans un domaine particulier. Le résultat est un modèle fine-tuné qui conserve une compréhension générale du langage tout en acquérant des capacités spécialisées pour la tâche cible.

Quelle est la différence entre le fine-tuning et la génération augmentée par récupération (RAG) ?

L'ajustement fin modifie directement les paramètres du modèle, tandis que la génération augmentée par récupération (RAG) enrichit l'invite du modèle avec le contexte récupéré d'une source de connaissances externe au moment de l'inférence. L'ajustement fin est préférable pour les tâches nécessitant un changement de comportement durable ; la RAG est préférable pour les tâches nécessitant l'accès à des informations fréquemment mises à jour ou propriétaires. Les deux approches sont complémentaires et sont souvent combinées dans les systèmes de production.

Qu'est-ce que l'ajustement fin efficace en termes de paramètres (PEFT) ?

L'ajustement fin efficace en termes de paramètres (PEFT) fait référence à un ensemble de méthodes qui adaptent un grand modèle de langage à une tâche spécifique en mettant à jour seulement un petit sous-ensemble de ses paramètres — généralement de nouvelles couches d'adaptation ciblant des composants spécifiques du modèle — plutôt qu'en mettant à jour tous les poids du modèle. Les méthodes PEFT telles que LoRA et QLoRA réduisent considérablement les exigences de calcul et de mémoire de l'ajustement fin tout en obtenant des performances comparables à celles de l'ajustement fin complet sur de nombreuses tâches.

Qu'est-ce que l'oubli catastrophique dans l'ajustement fin ?

L'oubli catastrophique se produit lorsqu'un modèle mis à jour de manière trop agressive sur un ensemble de données d'ajustement fin restreint perd sa capacité à bien performer sur la large gamme de tâches que le modèle d'origine gérait avant l'entraînement. Les méthodes d'ajustement fin efficaces en termes de paramètres sont la principale atténuation, car elles préservent la plupart des poids du modèle de base inchangés tout en ne mettant à jour que les paramètres d'adaptation. L'utilisation de taux d'apprentissage faibles et l'arrêt précoce réduisent également ce risque.

Quand devons-nous utiliser l'ajustement fin complet par rapport au PEFT ?

L'ajustement fin complet est approprié lorsque la tâche cible nécessite des changements de comportement profonds qui ne peuvent être obtenus en mettant à jour uniquement les paramètres d'adaptation, et lorsque des données d'entraînement suffisantes et de haute qualité sont disponibles pour prendre en charge les mises à jour de tous les poids du modèle. Les méthodes PEFT telles que LoRA sont le meilleur choix par défaut pour la plupart des projets d'ajustement fin : elles obtiennent des performances comparables sur la majorité des tâches pour une fraction du coût de calcul, et elles préservent la compréhension générale du langage de manière plus fiable que l'ajustement fin complet. Commencer par le PEFT et passer à l'ajustement fin complet uniquement lorsque les méthodes PEFT s'avèrent insuffisantes est l'approche recommandée pour maintenir des performances optimales tout en gérant les coûts d'entraînement.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs