Technique améliorant les réponses des LLM en récupérant des informations pertinentes dans des bases de connaissances externes avant la génération, ancrant les résultats dans des faits
La génération augmentée par récupération (RAG) est un framework AI hybride qui renforce les grands modèles de langage (LLM) en les combinant avec des sources de données externes et à jour. Au lieu de s'appuyer uniquement sur des données d'entraînement statiques, la RAG récupère les documents pertinents au moment de la requête et les fournit au modèle en tant que contexte. En intégrant des données nouvelles et sensibles au contexte, l'AI peut générer des réponses plus précises, actuelles et spécifiques à un domaine.
La RAG devient rapidement l'architecture de référence pour créer des applications AI d'entreprise. Selon des enquêtes récentes, plus de 60 % des organisations développent des outils de récupération alimentés par l'AI pour améliorer la fiabilité, réduire les hallucinations et personnaliser les résultats à l'aide de données internes.
Alors que l'generative AI s'étend aux fonctions de l'entreprise telles que le service client, la gestion interne des connaissances et la conformité, la capacité de la RAG à combler le fossé entre l'AI générale et les connaissances spécifiques de l'organisation en fait un pilier essentiel pour des déploiements fiables et concrets.
La RAG améliore les résultats d'un modèle de langage en y injectant des informations contextuelles et en temps réel récupérées à partir d'une source de données externe. Lorsqu'un utilisateur soumet une requête, le système sollicite d'abord le modèle de récupération, qui utilise une base de données vectorielle pour identifier et « récupérer » des documents, des bases de données ou d'autres sources sémantiquement similaires contenant des informations pertinentes. Une fois identifiés, il combine ces résultats avec le prompt d'origine et les envoie à un modèle d'AI générative, qui synthétise les nouvelles informations.
Cela permet au LLM de produire des réponses plus précises et adaptées au contexte, basées sur des données spécifiques à l'entreprise ou à jour, plutôt que de s'appuyer simplement sur le modèle sur lequel il a été entraîné.
Les pipelines RAG comportent généralement quatre étapes : la préparation et le découpage des documents (chunking), l'indexation vectorielle, la récupération et l'augmentation du prompt. Ce flux de processus aide les développeurs à mettre à jour les sources de données sans réentraîner le modèle, faisant de la RAG une solution évolutive et rentable pour créer des applications LLM dans des domaines tels que le support client, les bases de connaissances et la recherche interne.
Les LLM utilisent des modèles de deep learning et s'entraînent sur des ensembles de données massifs pour comprendre, résumer et générer du contenu inédit. La plupart des LLM sont entraînés sur un large éventail de données publiques afin qu'un seul modèle puisse répondre à de nombreux types de tâches ou de questions. Une fois entraînés, de nombreux LLM n'ont pas la capacité d'accéder à des données au-delà de la date limite de leurs données d'entraînement. Cela rend les LLM statiques et peut les amener à répondre de manière incorrecte, à donner des réponses obsolètes ou à halluciner lorsqu'on leur pose des questions sur des données sur lesquelles ils n'ont pas été entraînés.
Pour que les LLM fournissent des réponses pertinentes et spécifiques, les organisations ont besoin que le modèle comprenne leur domaine et fournisse des réponses à partir de leurs propres données, plutôt que de donner des réponses larges et généralisées. For exemple, les organisations créent des bots de support client avec des LLM, et ces solutions doivent fournir des réponses spécifiques à l'entreprise aux questions des clients. D'autres construisent des bots de Q&A internes qui doivent répondre aux questions des employés sur les données HR internes. Comment les entreprises peuvent-elles concevoir de telles solutions sans réentraîner ces modèles ?
Un moyen simple et populaire d'utiliser vos propres données consiste à les fournir dans le cadre du prompt avec lequel vous interrogez le modèle LLM. C'est ce qu'on appelle la génération augmentée par récupération (RAG), car vous récupérez les données pertinentes et les utilisez comme contexte augmenté pour le LLM. Au lieu de s'appuyer uniquement sur les connaissances issues des données d'entraînement, un workflow RAG extrait les informations pertinentes et connecte les LLM statiques à la récupération de données en temps réel.
Avec l'architecture RAG, organisations peuvent déployer n'importe quel modèle LLM et l'augmenter pour renvoyer des résultats pertinents pour leur organisation en lui fournissant une petite quantité de leurs données, sans les coûts et le temps liés au fine-tuning ou au pré-entraînement du modèle.
Il existe de nombreux cas d'usage différents pour la RAG. Les plus courants sont :
Chatbots de questions-réponses : L'intégration de LLM aux chatbots leur permet d'obtenir automatiquement des réponses plus précises à partir des documents et des bases de connaissances de l'entreprise. Les chatbots sont utilisés pour automatiser le support client et le suivi des prospects sur le site Web afin de répondre aux questions et de résoudre rapidement les problèmes.
Par exemple, Experian, une entreprise multinationale de courtage de données et d'évaluation du crédit à la consommation, souhaitait créer un chatbot pour répondre à des besoins internes et externes. Ils ont rapidement réalisé que leurs technologies de chatbot actuelles avaient du mal à évoluer pour répondre à la demande. En construisant leur chatbot GenAI — Latte — sur la Databricks Data Intelligence Platform, Experian a pu améliorer la gestion des prompts et la précision des modèles, ce qui a donné à ses équipes une plus grande flexibilité pour expérimenter différents prompts, affiner les résultats et s'adapter rapidement aux évolutions de la technologie GenAI.
Moteur de connaissances : Posez des questions sur vos données (par exemple, documents HR, conformité) : Les données de l'entreprise peuvent être utilisées comme contexte pour les LLM et permettre aux employés d'obtenir facilement des réponses à leurs questions, y compris les questions HR liées aux avantages sociaux et aux politiques, ainsi que les questions de sécurité et de conformité.
C'est notamment le cas chez Cycle & Carriage, un groupe automobile de premier plan en Asie du Sud-Est. Ils se sont tournés vers Databricks pour développer un chatbot RAG qui améliore la productivité et l'engagement des clients en exploitant leurs bases de connaissances propriétaires, telles que les manuels techniques, les transcriptions du support client et les documents de processus métier. Cela a permis aux employés de rechercher plus facilement des informations via des requêtes en langage naturel qui fournissent des réponses contextuelles et en temps réel.
L'approche RAG présente plusieurs avantages clés, notamment :
La RAG est le bon point de départ, car elle est simple et peut s'avérer tout à fait suffisante pour certains cas d'usage. Le fine-tuning est plus approprié dans une situation différente, lorsque l'on souhaite modifier le comportement du LLM ou lui faire apprendre un « langage » différent. Ces approches ne s'excluent pas mutuellement. À l'avenir, il est possible d'envisager le fine-tuning d'un modèle pour mieux comprendre le langage du domaine et la forme de sortie souhaitée, tout en utilisant également la RAG pour améliorer la qualité et la pertinence de la réponse.
Il existe quatre modèles d'architecture à prendre en compte lors de la personnalisation d'une application LLM avec les données de votre organisation. Ces techniques sont présentées ci-dessous et ne s'excluent pas mutuellement. Au contraire, elles peuvent (et doivent) être combinées pour tirer parti des forces de chacune.
| Méthode | Définition | Cas d'usage principal | Exigences en matière de données | Avantages | Considérations |
|---|---|---|---|---|---|
Prompt engineering | Création de prompts spécialisés pour guider le comportement du LLM | Guidage rapide et à la volée du modèle | Aucun | Rapide, rentable, aucun entraînement requis | Moins de contrôle que le fine-tuning |
Génération augmentée par récupération (RAG) | Combinaison d'un LLM avec la récupération de connaissances externes | Jeux de données dynamiques et connaissances externes | Base de connaissances ou base de données externe (par ex., base de données vectorielle) | Contexte mis à jour de manière dynamique, précision accrue | Augmente la longueur du prompt et le calcul d'inférence |
Fine-tuning | Adaptation d'un LLM pré-entraîné à des jeux de données ou des domaines spécifiques | Spécialisation par domaine ou par tâche | Des milliers d'exemples spécifiques à un domaine ou d'instructions | Contrôle granulaire, spécialisation élevée | Nécessite des données étiquetées, coût de calcul |
Pré-entraînement | Entraînement d'un LLM à partir de zéro | Tâches uniques ou organisation spécifique à un domaine | Grands jeux de données (de milliards à des milliers de milliards de tokens) | Contrôle maximal, adapté aux besoins spécifiques | Extrêmement gourmand en ressources |
Quelle que soit la technique choisie, concevoir une solution de manière bien structurée et modulaire garantit que les organisations seront prêtes à s'adapter et à évoluer. Découvrez-en plus sur cette approche et bien d'autres dans The Big Book of MLOps.

La mise en œuvre du RAG à grande échelle présente plusieurs défis techniques et opérationnels.
Il existe de nombreuses façons de mettre en œuvre un système de génération augmentée par récupération, en fonction des besoins spécifiques et des nuances des données. Vous trouverez ci-dessous un flux de travail couramment adopté pour fournir une compréhension fondamentale du processus.

Databricks recommande également certains éléments architecturaux clés d'une architecture RAG :
JetBlue a déployé « BlueBot », un chatbot qui utilise des modèles d'AI générative open source complétés par des données d'entreprise, propulsé par Databricks. Ce chatbot peut être utilisé par toutes les équipes de JetBlue pour accéder à des données régies par des rôles. Par exemple, l'équipe financière peut voir les données de SAP et les rapports réglementaires, tandis que l'équipe des opérations ne verra que les informations de maintenance.
Lisez également cet article.
Chevron Phillips Chemical utilise Databricks pour soutenir ses initiatives d'AI générative, y compris l'automatisation du traitement des documents.
Thrivent Financial s'intéresse à l'AI générative pour améliorer la recherche, produire des insights mieux synthétisés et plus accessibles, et améliorer la productivité de l'ingénierie.
De nombreuses ressources sont disponibles pour en savoir plus sur la RAG, notamment :
Contactez Databricks pour planifier une démo et discuter de vos projets de LLM et de génération augmentée de récupération (RAG)
La RAG évolue rapidement, passant d'une solution de contournement de fortune à un composant fondamental de l'architecture d'AI d'entreprise. À mesure que les LLM deviennent plus performants, le rôle de la RAG évolue. Elle passe du simple comblement des lacunes de connaissances à des systèmes structurés, modulaires et plus intelligents.
L'un des axes de développement de la RAG réside dans les architectures hybrides, où la RAG est combinée avec des outils, des bases de données structurées et des agents d'appel de fonctions. Dans ces systèmes, la RAG fournit un ancrage non structuré tandis que les données structurées ou les API gèrent des tâches plus précises. Ces architectures multimodales offrent aux entreprises une automatisation de bout en bout plus fiable.
Un autre développement majeur est le co-entraînement extracteur-générateur. Il s'agit d'un modèle dans lequel l'extracteur RAG et le générateur sont entraînés conjointement pour optimiser mutuellement la qualité de leurs réponses. Cela peut réduire le besoin d'ingénierie de prompt manuelle ou de fine-tuning, et conduit à des éléments tels que l'apprentissage adaptatif, la réduction des hallucinations et une meilleure performance globale des extracteurs et des générateurs.
À mesure que les architectures de LLM mûrissent, la RAG deviendra probablement plus fluide et contextuelle. Dépassant les stocks limités de mémoire et d'informations, ces nouveaux systèmes seront capables de gérer des flux de données en temps réel, du raisonnement multi-documents et une mémoire persistante, ce qui en fera des assistants compétents et fiables.
Qu'est-ce que la génération augmentée de récupération (RAG) ?
La RAG est une architecture d'AI qui renforce les LLM en récupérant des documents pertinents et en les injectant dans le prompt. Cela permet d'obtenir des réponses plus précises, à jour et spécifiques à un domaine, sans perdre de temps à réentraîner le modèle.
Quand dois-je utiliser la RAG plutôt que le fine-tuning ?
Utilisez la RAG lorsque vous souhaitez intégrer des données dynamiques sans le coût ou la complexité du fine-tuning. Elle est idéale pour les cas d'usage nécessitant des informations précises et opportunes.
La RAG réduit-elle les hallucinations dans les LLM ?
Oui. En ancrant la réponse du modèle dans un contenu récupéré et à jour, la RAG réduit la probabilité d'hallucinations. C'est particulièrement le cas dans les domaines qui exigent une grande précision, comme la santé, le secteur juridique ou le support d'entreprise.
De quel type de données la RAG a-t-elle besoin ?
La RAG utilise des données textuelles non structurées (comme des PDF, des e-mails et des documents internes) stockées dans un format récupérable. Celles-ci sont généralement stockées dans une base de données vectorielle, et les données doivent être indexées et régulièrement mises à jour pour maintenir leur pertinence.
Comment évalue-t-on un système RAG ?
Les systèmes RAG sont évalués à l'aide d'une combinaison de scores de pertinence, de vérifications d'ancrage, d'évaluations humaines et de mesures de performance spécifiques aux tâches. Mais comme nous l'avons vu, les possibilités de co-entraînement extracteur-générateur pourraient faciliter l'évaluation régulière à mesure que les modèles apprennent les uns des autres et s'entraînent mutuellement.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.