La generación aumentada por recuperación (RAG) es un marco de IA híbrido que refuerza los modelos de lenguaje grandes (LLMs) al combinarlos con fuentes de datos externas y actualizadas. En lugar de basarse únicamente en datos de entrenamiento estáticos, RAG recupera documentos relevantes en el momento de la consulta y los introduce en el modelo como contexto. Al incorporar datos nuevos y sensibles al contexto, la IA puede generar respuestas más precisas, actuales y específicas para cada ámbito.
RAG se está convirtiendo rápidamente en la arquitectura de referencia para crear aplicaciones de IA de nivel empresarial. Según encuestas recientes, más del 60% de las organizaciones están desarrollando herramientas de recuperación basadas en inteligencia artificial para mejorar la confiabilidad, reducir las alucinaciones y personalizar los resultados utilizando datos internos.
A medida que la IA generativa se expande a funciones empresariales como el servicio al cliente, la gestión del conocimiento interno y el cumplimiento, la capacidad de RAG para cerrar la brecha entre la IA general y el conocimiento específico de la organización la convierte en una base esencial para implementaciones confiables en el mundo real.
RAG mejora el resultado de un modelo de lenguaje al inyectarle información contextual y en tiempo real recuperada de una fuente de datos externa. Cuando un usuario envía una consulta, el sistema primero activa el modelo de recuperación, que utiliza una base de datos vectorial para identificar y “recuperar” documentos, bases de datos u otras fuentes semánticamente similares para obtener información relevante. Una vez identificados, combina esos resultados con el prompt de entrada original y lo envía a un modelo de IA generativa, que sintetiza la nueva información en su propio modelo.
Esto permite que el LLM genere respuestas más precisas y contextualizadas, basadas en datos actualizados o específicos de la empresa, en lugar de depender únicamente del modelo con el que fue entrenado.
Los pipelines de RAG suelen implicar cuatro pasos: preparación y división de documentos, indexación de vectores, recuperación y aumentación del prompt. Este flujo de proceso ayuda a los desarrolladores a actualizar las fuentes de datos sin reentrenar el modelo, lo que convierte a RAG en una solución escalable y rentable para crear aplicaciones de LLM en dominios como la atención al cliente, las bases de conocimiento y la búsqueda interna.
Los LLM usan modelos de aprendizaje profundo y se entrenan con conjuntos de datos masivos para comprender, resumir y generar contenido novedoso. La mayoría de los LLM se entrenan con una amplia gama de datos públicos, por lo que un modelo puede responder a muchos tipos de tareas o preguntas. Una vez entrenados, muchos LLM no tienen la capacidad de acceder a datos más allá de la fecha de corte de sus datos de entrenamiento. Esto hace que los LLM sean estáticos y puede hacer que respondan de forma incorrecta, den respuestas desactualizadas o alucinen cuando se les hacen preguntas sobre datos con los que no se han entrenado.
Para que los LLM den respuestas relevantes y específicas, las organizaciones necesitan que el modelo entienda su dominio y proporcione respuestas a partir de sus datos, en lugar de dar respuestas amplias y generalizadas. Por ejemplo, las organizaciones crean bots de atención al cliente con LLM, y esas soluciones deben dar respuestas específicas de la empresa a las preguntas de los clientes. Otros están creando bots de Q&A internos para responder las preguntas de los empleados sobre datos internos de RR. HH. ¿Cómo crean las empresas tales soluciones sin reentrenar esos modelos?
Una forma fácil y popular de usar tus propios datos es proporcionarlos como parte del prompt con el que consultas el modelo LLM. Esto se llama generación aumentada por recuperación (RAG), ya que se recuperan los datos relevantes y se usan como contexto aumentado para el LLM. En lugar de depender únicamente del conocimiento derivado de los datos de entrenamiento, un flujo de trabajo RAG extrae información relevante y conecta los LLM estáticos con la recuperación de datos en tiempo real.
Con la arquitectura RAG, las organizaciones pueden implementar cualquier modelo LLM y aumentarlo para que devuelva resultados relevantes para su organización, dándole una pequeña cantidad de sus datos sin los costos y el tiempo del ajuste fino o el preentrenamiento del modelo.
Hay muchos casos de uso diferentes para RAG. Los más comunes son:
Chatbots de preguntas y respuestas: La incorporación de LLM en los chatbots les permite obtener respuestas más precisas de forma automática a partir de los documentos y las bases de conocimiento de la empresa. Los chatbots se usan para automatizar el soporte al cliente y el seguimiento de clientes potenciales del sitio web para responder preguntas y resolver problemas rápidamente.
Por ejemplo, Experian, una empresa multinacional de corretaje de datos y informes de crédito al consumidor, quería crear un chatbot para satisfacer necesidades internas y de cara al cliente. Rápidamente se dieron cuenta de que sus tecnologías actuales de chatbot tenían dificultades para adaptarse a la demanda. Al construir su chatbot de GenAI, Latte, en la plataforma de inteligencia de datos de Databricks, Experian pudo mejorar el manejo de prompts y la precisión del modelo, lo que le dio a sus equipos mayor flexibilidad para experimentar con diferentes prompts, refinar los resultados y adaptarse rápidamente a las evoluciones de la tecnología GenAI.
Motor de conocimiento: Haz preguntas sobre tus datos (p. ej., documentos de RR. HH. o de cumplimiento): Los datos de la empresa se pueden usar como contexto para los LLM y permitir que los empleados obtengan respuestas a sus preguntas fácilmente, incluidas las preguntas de RR. HH. relacionadas con los beneficios y las políticas, y las preguntas sobre seguridad y cumplimiento.
Una de las formas en que se está implementando es en Cycle & Carriage, un grupo automotriz líder en el sudeste asiático. Recurrieron a Databricks Mosaic AI para desarrollar un chatbot RAG que mejora la productividad y la interacción con el cliente aprovechando sus bases de conocimiento patentadas, como manuales técnicos, transcripciones de soporte al cliente y documentos de procesos de negocio. Esto facilitó a los empleados la búsqueda de información mediante consultas en lenguaje natural que ofrecen respuestas contextuales y en tiempo real.
El enfoque RAG tiene una serie de beneficios clave, entre los que se incluyen:
RAG es un buen punto de partida, ya que es fácil y posiblemente sea totalmente suficiente para algunos casos de uso. El ajuste fino es más apropiado en una situación diferente, cuando se quiere que el comportamiento del LLM cambie o que aprenda un "lenguaje" diferente. No son mutuamente excluyentes. Como paso futuro, es posible considerar el fine-tuning de un modelo para que comprenda mejor el lenguaje del dominio y la forma de resultado deseada, y también usar RAG para mejorar la calidad y la relevancia de la respuesta.
Existen cuatro patrones arquitectónicos a considerar al personalizar una aplicación de LLM con los datos de tu organización. Estas técnicas se describen a continuación y no son mutuamente excluyentes. Más bien, pueden (y deben) combinarse para aprovechar las fortalezas de cada una.
| Método | Definición | Caso de uso principal | Requisitos de datos | Beneficios | Consideraciones |
|---|---|---|---|---|---|
Ingeniería de prompts | Elaboración de indicaciones especializadas para guiar el comportamiento de los LLM | Guía rápida y en tiempo real del modelo | Ninguno | Rápido, económico, no requiere entrenamiento | Menos control que el ajuste preciso |
Generación aumentada por recuperación (RAG) | Combinación de un LLM con recuperación de conocimientos externos | Conjuntos de datos dinámicos y conocimiento externo | Base de conocimientos o base de datos externa (por ejemplo, base de datos vectorial). | Contexto actualizado dinámicamente, precisión mejorada | Aumenta la longitud de las indicaciones y el cálculo de inferencias |
Ajuste preciso | Adaptación de un LLM preentrenado a conjuntos de datos o dominios específicos | Especialización en un dominio o tarea | Miles de ejemplos específicos de dominios o instrucciones | Control granular, alta especialización | Requiere datos etiquetados, costo de cómputo |
Preentrenamiento | Entrenamiento de un LLM desde cero | Tareas únicas o corpus específicos del dominio | Grandes conjuntos de datos (miles de millones a billones de tokens) | Control máximo, adaptado a necesidades específicas | Muy demandante en cuanto al uso de recursos |
Independientemente de la técnica seleccionada, construir una solución de manera bien estructurada y modularizada garantiza que las organizaciones estén preparadas para iterar y adaptarse. Obtén más información sobre este enfoque y mucho más en The Big Book of MLOps.
Implementar RAG a gran escala presenta varios desafíos técnicos y operativos.
Hay muchas formas de implementar un sistema de generación aumentada por recuperación, dependiendo de las necesidades específicas y los matices de los datos. A continuación se muestra un flujo de trabajo comúnmente adoptado para proporcionar una comprensión básica del proceso.
Databricks también recomienda alcuni elementi architettonici chiave di un'architettura RAG:
JetBlue implementó "BlueBot", un chatbot que usa modelos de IA generativa de código abierto complementados con datos corporativos e impulsado por Databricks. Todos los equipos de JetBlue pueden usar este chatbot para acceder a los datos que se rigen por el rol. Por ejemplo, el equipo de finanzas puede ver los datos de SAP y las presentaciones regulatorias, pero el equipo de operaciones solo verá la información de mantenimiento.
Lee también este artículo.
Chevron Phillips Chemical usa Databricks para apoyar sus iniciativas de IA generativa, incluida la automatización del procesamiento de documentos.
Thrivent Financial está explorando la IA generativa para mejorar la búsqueda, producir información más accesible y mejor resumida, y mejorar la productividad de la ingeniería.
Existen muchos recursos disponibles para encontrar más información sobre los LLM, entre ellos:
Contacta a Databricks para programar una demo y hablar con alguien sobre tus proyectos de LLM y de generación aumentada por recuperación (RAG).
RAG está evolucionando rápidamente de ser una solución improvisada a un componente fundamental de la arquitectura de AI empresarial. A medida que los LLM se vuelven más capaces, el rol de RAG está cambiando. Se está pasando de simplemente llenar las lagunas de conocimiento a sistemas estructurados, modulares y más inteligentes.
Una de las formas en las que RAG se está desarrollando es a través de arquitecturas híbridas, donde RAG se combina con herramientas, bases de datos estructuradas y function-calling agents. En estos sistemas, RAG proporciona una base no estructurada, mientras que los datos estructurados o las API se encargan de tareas más precisas. Estas arquitecturas multimodales brindan a las organizaciones una automatización de extremo a extremo más confiable.
Otro desarrollo importante es el coentrenamiento de recuperador-generador. Este es un modelo en el que el recuperador RAG y el generador se entrenan conjuntamente para optimizar la calidad de las respuestas de cada uno. Esto puede reducir la necesidad de ingeniería de prompts manual o de ajuste fino, y da como resultado aspectos como el aprendizaje adaptativo, la reducción de las alucinaciones y un mejor rendimiento general de los recuperadores y generadores.
A medida que las arquitecturas LLM maduren, es probable que RAG se vuelva más fluido y contextual. Más allá de los almacenamientos finitos de memoria e información, estos nuevos sistemas serán capaces de manejar flujos de datos en tiempo real, razonamiento sobre múltiples documentos y memoria persistente, lo que los convierte en asistentes expertos y confiables.
¿Qué es la generación aumentada por recuperación (RAG)?
RAG es una arquitectura de IA que refuerza los LLM recuperando documentos relevantes e insertándolos en la solicitud. Esto permite obtener respuestas más precisas, actuales y específicas del dominio sin tener que dedicar tiempo a volver a entrenar el modelo.
¿Cuándo debo usar RAG en lugar de un ajuste fino?
Usa RAG cuando quieras incorporar datos dinámicos sin el costo ni la complejidad del ajuste fino. Es ideal para casos de uso en los que se requiere información precisa y oportuna.
¿RAG reduce las alucinaciones en los LLM?
Sí. Al basar la respuesta del modelo en contenido recuperado y actualizado, RAG reduce la probabilidad de alucinaciones. Esto es especialmente cierto en dominios que requieren una alta precisión, como la atención médica, los servicios legales o el soporte empresarial.
¿Qué tipo de datos necesita RAG?
RAG usa datos de texto no estructurados (por ejemplo, fuentes como PDF, correos electrónicos y documentos internos) almacenados en un formato recuperable. Por lo general, se almacenan en una base de datos vectorial, y los datos deben indexarse y actualizarse periódicamente para mantener su relevancia.
¿Cómo se evalúa un sistema RAG?
Los sistemas RAG se evalúan mediante una combinación de puntuación de relevancia, comprobaciones de fundamentación, evaluaciones humanas y métricas de rendimiento específicas para cada tarea. Pero, como hemos visto, las posibilidades del coentrenamiento de recuperador y generador pueden facilitar la evaluación regular, ya que los modelos aprenden unos de otros y se entrenan mutuamente.
