La génération augmentée par récupération (RAG) est un cadre d'IA hybride qui renforce les grands modèles de langage (LLMs) en les combinant avec des sources de données externes et à jour. Au lieu de se fier uniquement aux données d'entraînement statiques, RAG récupère des documents pertinents au moment de la requête et les intègre au modèle comme contexte. En incorporant des données nouvelles et conscientes du contexte, l'IA peut générer des réponses plus précises, actuelles et spécifiques à un domaine.
RAG devient rapidement l'architecture de prédilection pour la construction d'applications IA de niveau entreprise. Selon des enquêtes récentes, plus de 60% des organisations développent des outils de recherche alimentés par l'IA pour améliorer la fiabilité, réduire les hallucinations et personnaliser les résultats à l'aide de données internes.
Au fur et à mesure que l'IA générative se déploie dans les fonctions commerciales comme le service client, la gestion des connaissances internes et la conformité, la capacité de RAG à combler l'écart entre l'IA générale et les connaissances organisationnelles spécifiques en fait une base essentielle pour des déploiements fiables et concrets.
RAG améliore la sortie d'un modèle de langage en y injectant des informations contextuelles et en temps réel récupérées à partir d'une source de données externe. Lorsqu'un utilisateur soumet une requête, le système engage d'abord le modèle de récupération, qui utilise une base de données vectorielle pour identifier et « récupérer » des documents, des bases de données ou d'autres sources d'information pertinentes, dans une logique de similarité sémantique. Une fois identifiés, ces résultats sont ensuite combinés avec la commande d'entrée originale et envoyés à un modèle d'IA génératif, qui synthétise ces nouvelles informations dans son propre modèle.
Cela permet au LLM de produire des réponses plus précises et conscientes du contexte, basées sur des données spécifiques à l'entreprise ou à jour, plutôt que de se fier simplement au modèle sur lequel il a été formé.
Les pipelines RAG impliquent généralement quatre étapes : la préparation et le fractionnement des documents, l'indexation des vecteurs, la récupération et l'augmentation de l'invite. Ce flux de processus aide les développeurs à mettre à jour les sources de données sans avoir à re-entraîner le modèle et rend RAG une solution évolutive et économique pour la construction d'applications LLM dans des domaines tels que le support client, les bases de connaissances et la recherche interne.
Les LLM s'appuient sur des modèles d'apprentissage profond et s'entraînent sur des datasets très volumineux pour comprendre, résumer et générer du contenu inédit. La plupart des LLM sont entraînés sur un large éventail de données publiques, de façon à pouvoir accomplir un grand nombre de tâches et répondre à toutes sortes de questions. Une fois entraînés, la plupart des LLM ne peuvent plus accéder à de nouvelles données au-delà de leurs données d'entraînement. Cette nature statique est à l'origine de réponses incorrectes ou obsolètes, voire d'hallucinations quand la réponse qu'on leur demande ne se trouve pas dans leurs données d'entraînement.
Pour qu'un LLM puisse donner à une entreprise des réponses pertinentes et spécifiques, il faut qu'il comprenne son domaine et s'appuie sur ses données pour répondre, au lieu de donner des réponses généralistes et imprécises. Prenons l'exemple des chatbots d'assistance client : ceux-ci s'appuient sur des LLM et doivent être en mesure de donner aux clients des réponses concernant spécifiquement l'entreprise. Certaines organisations élaborent également des robots conversationnels internes chargés de répondre aux questions que posent les collaborateurs sur des données RH internes. Comment développer de telles solutions sans réentraîner les modèles ?
Un moyen simple et répandu d'exploiter vos propres données consiste à les fournir dans le prompt utilisé pour interroger le LLM. C'est ce qu'on appelle la génération augmentée par récupération (RAG) : vous récupérez des données utiles et vous les fournissez au LLM à titre de contexte enrichi. Au lieu de vous appuyer uniquement sur les connaissances dérivées des données d'entraînement, un workflow RAG retrouve des informations et les fournit à un LLM statique en temps réel.
Avec une architecture RAG, les organisations peuvent déployer n'importe quel modèle LLM et l'enrichir de façon à renvoyer des résultats qui les concernent spécifiquement. La quantité de données nécessaire reste faible, et cette pratique évite les coûts et les délais d'un réglage fin ou d'un pré-entraînement.
La RAG a de nombreux domaines d'application. Voici le plus courants :
Robots conversationnels « questions-réponses » : l'intégration des LLMs aux chatbots leur permet de fournir automatiquement des réponses plus précises en s'appuyant sur les documents et les bases de connaissances de l'entreprise. Les robots conversationnels sont utilisés pour automatiser l'assistance et les échanges initiés sur le site web de l'entreprise : ils permettent de répondre aux questions et de résoudre les problèmes plus rapidement.
Par exemple, Experian, un courtier en données multinationales et une entreprise de rapport de crédit à la consommation, souhaitait construire un chatbot pour répondre aux besoins internes et orientés client. Ils ont rapidement réalisé que leurs technologies de chatbot actuelles avaient du mal à évoluer pour répondre à la demande. En construisant leur chatbot GenAI — Latte — sur la plateforme d'intelligence de données Databricks, Experian a pu améliorer la gestion des invites et la précision du modèle, ce qui a donné à leurs équipes une plus grande flexibilité pour expérimenter avec différentes invites, affiner les sorties et s'adapter rapidement aux évolutions de la technologie GenAI.
Moteur de connaissance – posez des questions à vos données (RH, documents de conformité, etc.) : les données d'entreprise peuvent être employées comme contexte pour les LLM afin de permettre aux collaborateurs d'obtenir facilement des réponses à leurs questions sur des sujets comme les avantages et les politiques d'entreprise, la sécurité ou la conformité.
Une façon dont cela est déployé est chez Cycle & Carriage, un groupe automobile de premier plan en Asie du Sud-Est. Ils se sont tournés vers Databricks Mosaic AI pour développer un chatbot RAG qui améliore la productivité et l'engagement des clients en puisant dans leurs bases de connaissances propriétaires, telles que les manuels techniques, les transcriptions du support client et les documents de processus d'affaires. Cela a facilité la recherche d'informations par les employés grâce à des requêtes en langage naturel qui fournissent des réponses contextuelles et en temps réel.
L'approche RAG présente de nombreux avantages décisifs :
La RAG est un excellent point de départ. Elle est simple et peut parfaitement suffire dans certains cas d'usage. Le réglage fin, lui, convient mieux lorsqu'il est nécessaire de modifier le comportement du LLM ou de lui faire apprendre une autre « langue ». Mais ces approches ne s'excluent pas les unes les autres. Par la suite, il est possible d'envisager le réglage fin pour qu'un modèle comprenne mieux le langage du domaine et la forme des résultats attendus, tout en conservant la RAG pour améliorer la qualité et la pertinence des réponses.
Lorsque vous cherchez à personnaliser une application de LLM avec les données de votre organisation, vous devez examiner quatre modèles d'architecture. Ces différentes techniques, décrites plus bas, ne s'excluent pas les unes les autres. Au contraire, elles peuvent (et doivent) être combinées pour tirer parti de leurs forces respectives.
| Méthode | Définition | Cas d'usage principal | Exigences en matière de données | Avantages | Facteurs |
|---|---|---|---|---|---|
Ingénierie de prompt | Élaboration de prompts spécialisés visant à orienter le comportement du LLM | Guidage rapide, à la volée | Aucun | Rapide, économique, sans entraînement | Moins de contrôle que le réglage fin |
Génération augmentée de récupération (RAG) | Le LLM est combiné à de la récupération de connaissances extérieures | Datasets dynamiques et connaissances externes | Base de connaissances ou de données externes (base de données vectorielle, par exemple) | Contexte actualisé dynamiquement, précision accrue | Augmente la longueur des prompts et le calcul d'inférences |
Réglage fin | Adaptation d'un LLM pré-entraîné à des datasets ou des domaines spécifiques | Spécialisation pour un domaine ou une tâche | Des milliers d'exemples spécifiques ou d'instructions | Contrôle granulaire, spécialisation élevée | Nécessite des données étiquetées, coût de calcul important |
Pré-entraînement | Entraînement d'un LLM à partir de zéro | Tâches uniques ou corpus propre à un domaine | Grands datasets (milliards, voire milliers de milliards de jetons) | Contrôle maximum, spécialement adapté à des besoins spécifiques | Consomme une grande quantité de ressources |
Quelle que soit la technique choisie, l'organisation devra créer sa solution en adoptant une approche modulaire et rigoureusement structurée pour se préparer à l'itérer et à l'adapter. Pour en savoir plus sur ce sujet et d'autres, lisez le Grand Livre des MLOps.
La mise en œuvre de RAG à grande échelle introduit plusieurs défis techniques et opérationnels.
Il existe de nombreuses manières de mettre en place un système de génération augmentée de récupération, selon les besoins et les particularités des données. Nous présentons ci-dessous un workflow couramment appliqué pour vous donner un aperçu plus concret du processus.
Databricks recommande également plusieurs composants clés pour bâtir une architecture RAG :
JetBlue a déployé « BlueBot », un robot conversationnel qui s'appuie sur des modèles open source d'IA générative enrichis de données d'entreprise, exécuté avec Databricks. Ce chatbot est à la disposition de toutes les équipes de JetBlue qui peuvent accéder à des données en fonction de leur rôle. L'équipe « finance », par exemple, peut consulter les données SAP et les déclarations réglementaires, mais les équipes d'exploitation ne verront que les informations de maintenance.
Pour en savoir plus, lisez également cet article.
Chevron Phillips Chemical utilise Databricks pour soutenir ses initiatives d'IA générative et automatiser le traitement de ses documents.
Thrivent Financial se tourne vers l'IA générative pour améliorer la recherche, produire des résumés et des insights plus accessibles, et améliorer la productivité de l'ingénierie.
Vous trouverez de nombreuses ressources sur la RAG. Voici quelques suggestions :
Contactez Databricks pour planifier une démonstration et discuter de vos projets de LLM et de génération augmentée de récupération (RAG)
RAG évolue rapidement d'une solution de contournement bricolée à une composante fondamentale de l'architecture de l'IA d'entreprise. À mesure que les LLMs deviennent plus capables, le rôle de RAG est en train de changer. Il passe de la simple comblement des lacunes en matière de connaissances à des systèmes qui sont structurés, modulaires et plus intelligents.
Une façon dont RAG se développe est à travers des architectures hybrides, où RAG est combiné avec des outils, des bases de données structurées et des agents d'appel de fonction. Dans ces systèmes, RAG fournit un ancrage non structuré alors que les données structurées ou les API gèrent des tâches plus précises. Ces architectures multimodales offrent aux organisations une automatisation de bout en bout plus fiable.
Un autre développement majeur est la co-formation du récupérateur-générateur. Il s'agit d'un modèle où le récupérateur RAG et le générateur sont entraînés conjointement pour optimiser la qualité des réponses de chacun. Cela peut réduire le besoin d'ingénierie des invites manuelles ou de réglage fin et conduit à des choses comme l'apprentissage adaptatif, la réduction des hallucinations et une meilleure performance globale des récupérateurs et des générateurs.
Au fur et à mesure que les architectures LLM mûrissent, RAG deviendra probablement plus fluide et contextuel. En dépassant les capacités finies de stockage de mémoire et d'information, ces nouveaux systèmes seront capables de gérer des flux de données en temps réel, le raisonnement multi-documents et la mémoire persistante, ce qui les rendra des assistants compétents et dignes de confiance.
Qu'est-ce que la génération augmentée de récupération, ou RAG ? RAG est une architecture d'IA qui renforce les LLM en récupérant des documents pertinents et en les intégrant dans l'invite. Cela permet d'obtenir des réponses plus précises, actuelles et spécifiques à un domaine sans prendre de temps pour re-former le modèle.
Quand devrais-je utiliser RAG plutôt que le fine-tuning?
Utilisez RAG lorsque vous souhaitez incorporer des données dynamiques sans le coût ou la complexité du réglage fin. C'est idéal pour les cas d'utilisation où des informations précises et opportunes sont requises.
Est-ce que RAG réduit les hallucinations dans les LLMs ?
Oui. En ancrant la réponse du modèle dans un contenu récupéré et à jour, RAG réduit la probabilité d'hallucinations. C'est particulièrement le cas dans les domaines qui nécessitent une grande précision, comme la santé, le travail juridique ou le soutien aux entreprises.
Quel type de données RAG nécessite-t-il?
RAG utilise des données textuelles non structurées - pensez à des sources comme les PDF, les e-mails et les documents internes - stockées dans un format récupérable. Celles-ci sont généralement stockées dans une base de données vectorielle, et les données doivent être indexées et régulièrement mises à jour pour maintenir leur pertinence.
Comment évaluez-vous un système RAG?
Les systèmes RAG sont évalués en utilisant une combinaison de notation de pertinence, des vérifications d'ancrage, des évaluations humaines et des métriques de performance spécifiques à la tâche. Mais comme nous l'avons vu, les possibilités de co-formation entre le récupérateur et le générateur peuvent rendre l'évaluation régulière plus facile à mesure que les modèles apprennent de — et s'entraînent — l'un l'autre.
