Los modelos de lenguaje son un tipo de IA generativa (GenAI) que usan el procesamiento del lenguaje natural (PLN) para comprender y generar lenguaje humano. Los modelos de lenguaje grande (LLM) son los más potentes de estos. Los LLM se entrenan a partir de conjuntos de datos masivos utilizando algoritmos avanzados de aprendizaje automático (ML) para aprender los patrones y las estructuras del lenguaje humano y generar respuestas de texto a indicaciones escritas. Ejemplos de LLM incluyen BERT, Claude, Gemini, Llama y la familia de LLM Generative Pretrained Transformer (GPT).
Los modelos de lenguaje grande (LLM) han superado significativamente a sus predecesores en rendimiento y capacidad en una variedad de tareas relacionadas con el lenguaje. Su capacidad para generar contenido complejo y matizado, y automatizar tareas para obtener resultados similares a los humanos, impulsa avances en diversos campos. Los modelos de lenguaje grande (LLM) se están integrando ampliamente en el mundo empresarial para generar impacto en una variedad de entornos y usos comerciales, lo que incluye la automatización del soporte, la obtención de insights y la generación de contenido personalizado.
Las capacidades de lenguaje e IA de los LLM principales incluyen las siguientes:
La mayoría de los LLM se construyen con una arquitectura de transformador. Funcionan dividiendo el texto de entrada en tokens (unidades de subpalabras), integrando esos tokens en vectores numéricos y utilizando mecanismos de atención para comprender las relaciones en el texto de entrada. Luego predicen el siguiente token en una secuencia para generar resultados coherentes.
El preentrenamiento de un modelo LLM se refiere al proceso de entrenarlo con un gran volumen de datos, como texto o código, sin aprovechar el conocimiento previo ni los pesos de un modelo existente. El resultado del preentrenamiento completo es un modelo base que se puede utilizar directamente o ajustar aún más para tareas posteriores.
La capacitación previa asegura que el conocimiento fundamental del modelo se adapte a tu dominio específico. El resultado es un modelo personalizado que se diferencia por los datos únicos de tu organización. Sin embargo, la capacitación previa suele ser el tipo de capacitación más extenso y costoso, y no es habitual en la mayoría de las organizaciones.
El ajuste preciso es el proceso de adaptar un LLM preentrenado en un conjunto de datos comparativamente más pequeño que es específico de un dominio o tarea individual. Durante el proceso de ajuste preciso, el LLM continúa entrenándose por un corto tiempo, posiblemente ajustando un número relativamente menor de pesos en comparación con el modelo completo.
Las dos formas más comunes de ajuste preciso son:
Ajuste preciso de la instrucción supervisada: este enfoque implica el entrenamiento continuo de un LLM preentrenado en un conjunto de datos de ejemplos de entrenamiento de entrada-salida, que normalmente se lleva a cabo con miles de ejemplos de entrenamiento.
Preentrenamiento continuo: este método de ajuste preciso no se basa en ejemplos de entrada y salida, sino que utiliza texto no estructurado específico del dominio para continuar el mismo proceso de preentrenamiento (como la predicción del siguiente token y el modelado de lenguaje enmascarado).
El ajuste preciso es importante porque permite a una organización tomar un LLM de base y entrenarlo con sus propios datos para lograr una mayor precisión y personalización para el dominio y las cargas de trabajo de la empresa. Esto también le da a la organización control para gestionar los datos utilizados para el entrenamiento, y te asegura un uso responsable de la IA.
Los LLM se basan en el aprendizaje profundo, una forma de IA en la que se introducen grandes cantidades de datos en un programa para entrenarlo, basado en la probabilidad. Al estar expuestos a enormes conjuntos de datos, los LLM pueden entrenarse a sí mismos para reconocer patrones y relaciones lingüísticas sin necesidad de programación explícita, gracias a mecanismos de autoaprendizaje que mejoran continuamente su precisión.
La base de los LLM son las redes neuronales artificiales, inspiradas en la estructura del cerebro humano. Estas redes están formadas por nodos interconectados dispuestos en capas, que incluyen una capa de entrada, una capa de salida y una o más capas intermedias. Cada nodo procesa y transmite información a la siguiente capa basándose en los patrones aprendidos.
Los LLM utilizan un tipo de red neuronal llamada modelo de transformador. Estos modelos innovadores pueden analizar una oración completa de una sola vez, a diferencia de los modelos anteriores que procesan las palabras de forma secuencial. Esto les permite entender el lenguaje más rápido y eficientemente. Los modelos transformers emplean una técnica matemática llamada autoatención, que asigna distintas importancias a las palabras de una oración, permitiendo al modelo captar matices de significado y comprender el contexto. La codificación posicional ayuda al modelo a comprender la importancia del orden de las palabras dentro de una oración, lo cual es esencial para comprender el lenguaje. El modelo transformador permite a los LLM procesar grandes cantidades de datos, aprender información relevante para el contexto y generar contenido coherente.
Obtén más información sobre los transformadores, la base de todo LLM
Los LLM pueden impulsar el impacto empresarial en casos de uso y diferentes industrias. Ejemplos de casos de uso incluyen los siguientes:
JetBlue implementó “BlueBot”, un chatbot que usa modelos de IA generativa de código abierto complementados con datos corporativos y potenciado por Databricks. Todos los equipos de JetBlue pueden usar este chatbot para acceder a datos regulados por funciones. Por ejemplo, el equipo financiero puede ver datos de SAP y documentos reglamentarios, pero el equipo de operaciones solo verá información de mantenimiento.
Chevron Phillips aprovecha las soluciones de IA generativa impulsadas por modelos de código abierto como Dolly de Databricks para agilizar la automatización de procesos de documentos. Estas herramientas transforman los datos no estructurados de los PDF y los manuales en insights estructurados, lo que permite una extracción de datos más rápida y precisa para las operaciones y la inteligencia de mercado. Las políticas de gobernanza garantizan la productividad y la gestión de riesgos, lo que mantiene la trazabilidad.
Thrivent Financial aprovecha la IA generativa y Databricks para acelerar las búsquedas, ofrecer insights más claros y accesibles, y aumentar la productividad en ingeniería. Al reunir los datos en una única plataforma con gobernanza basada en roles, la empresa está creando un espacio seguro donde los equipos pueden innovar, explorar y trabajar de manera más eficiente.
Hay muchos avances tecnológicos recientes que han llevado a los LLM al centro de atención:
Existen cuatro patrones arquitectónicos a considerar al personalizar una aplicación de LLM con los datos de tu organización. Estas técnicas se describen a continuación y no son mutuamente excluyentes. Más bien, pueden (y deben) combinarse para aprovechar las fortalezas de cada una.
Independientemente de la técnica seleccionada, construir una solución de manera bien estructurada y modularizada garantiza que las organizaciones estén preparadas para iterar y adaptarse. Obtén más información sobre este enfoque y más en El Gran Libro de la IA Generativa.
| Método | Definición | Caso de uso principal | Requisitos de datos | Beneficios | Consideraciones |
|---|---|---|---|---|---|
| Elaboración de indicaciones especializadas para guiar el comportamiento de los LLM | Guía rápida y en tiempo real del modelo | Ninguno | Rápido, económico, no requiere entrenamiento | Menos control que el ajuste preciso | |
| Combinación de un LLM con recuperación de conocimientos externos | Conjuntos de datos dinámicos y conocimiento externo | Base de conocimientos o base de datos externa (por ejemplo, base de datos vectorial). | Contexto actualizado dinámicamente, precisión mejorada | Aumenta la longitud de las indicaciones y el cálculo de inferencias | |
| Adaptación de un LLM preentrenado a conjuntos de datos o dominios específicos | Especialización en un dominio o tarea | Miles de ejemplos específicos de dominios o instrucciones | Control granular, alta especializaci ón | Requiere datos etiquetados, costo de cómputo | |
| Entrenamiento de un LLM desde cero | Tareas únicas o corpus específicos del dominio | Grandes conjuntos de datos (miles de millones a billones de tokens) | Control máximo, adaptado a necesidades específicas | Muy demandante en cuanto al uso de recursos |
La ingeniería de indicaciones es la práctica de ajustar las indicaciones de texto que se entregan a un LLM para obtener respuestas más precisas o relevantes. No todos los modelos de LLM producirán la misma calidad, ya que la ingeniería de indicaciones es específica de cada modelo. Los siguientes son algunos consejos generalizados que funcionan para una variedad de modelos:
La generación aumentada por recuperación, o RAG, es un enfoque de arquitectura que puede mejorar la eficacia de las aplicaciones LLM, ya que aprovecha datos personalizados. Esto se logra recuperando los datos/documentos relevantes a una pregunta o tarea, y proporcionándolos como contexto al LLM. RAG demostró ser exitoso en el soporte de chatbots y sistemas de preguntas y respuestas que necesitan mantener información actualizada o acceder a conocimientos específicos del dominio.
Descubre más sobre RAG aquí.
El campo de los LLM está lleno de muchas opciones para elegir. En términos generales, se pueden agrupar los LLM en dos categorías: modelos propietarios y modelos de código abierto.
Los modelos LLM patentados se desarrollan por empresas privadas y son propiedad de estas y, normalmente, requieren licencias para acceder. Quizás el LLM propietario de más alto perfil sea GPT-4o, que impulsa ChatGPT, que se lanzó en 2022 con gran expectativa. ChatGPT ofrece una interfaz de búsqueda amigable donde los usuarios pueden enviar mensajes y, por lo general, recibir una respuesta rápida y relevante. Los desarrolladores pueden acceder a la API de ChatGPT para integrarla en sus propias aplicaciones, productos o servicios. Otros modelos patentados incluyen Gemini de Google y Claude de Anthropic.
Otra opción es autohospedar un LLM, por lo general, usando un modelo de código abierto y disponible para uso comercial. La comunidad de código abierto alcanzó rápidamente el rendimiento de los modelos patentados. Los modelos LLM populares de código abierto incluyen Llama 4 de Meta y Mixtral 8x22B.
Las principales consideraciones y diferencias en el enfoque entre utilizar una API de un proveedor externo cerrado frente a alojar tu propio modelo LLM de código abierto (o perfeccionado) son la preparación para el futuro, la gestión de costos y el aprovechamiento de tus datos como una ventaja competitiva. Los modelos patentados pueden quedar obsoletos y eliminarse, lo que rompería sus procesos e índices vectoriales existentes, mientras que los modelos de código abierto estarán disponibles para ti para siempre. Los modelos de código abierto y perfeccionados pueden ofrecer más opciones y personalización para tu aplicación, lo que permite mejores compensaciones entre rendimiento y costo. La planificación para el ajuste futuro de tus propios modelos te permitirá aprovechar los datos de tu organización como una ventaja competitiva para construir mejores modelos que los disponibles públicamente. Finalmente, los modelos patentados pueden suscitar problemas de gobernanza, ya que estos LLM de “caja negra” brindan menor transparencia sobre cómo fueron entrenados y ponderados.
Alojar tus propios modelos LLM de código abierto requiere más trabajo que usar LLM patentados. MLflow de Databricks facilita que alguien con experiencia en Python pueda extraer cualquier modelo de transformador y usarlo como objeto Python.
La evaluación de los LLM es un dominio desafiante y en evolución, principalmente porque los LLM a menudo demuestran capacidades desiguales en diferentes tareas. Un LLM podría destacar en una prueba de rendimiento, pero basta con pequeñas variaciones en la indicación o en el problema para que su rendimiento se vea radicalmente afectado.
Algunas herramientas y puntos de referencia destacados que se usan para evaluar el rendimiento de los modelos de lenguaje grande (LLM) incluyen lo siguiente:
Además, lee las Prácticas recomendadas para la evaluación de aplicaciones RAG para LLM.
Las operaciones de modelos de lenguaje grande (LLMOps) abarcan las prácticas, técnicas y herramientas que se usan para la administración operativa de LLM en entornos de producción.
LLMOps permite la implementación, la supervisión y el mantenimiento eficientes de los LLM. LLMOps, como las operaciones tradicionales de aprendizaje automático (MLOps), requieren la colaboración de científicos de datos, ingenieros de DevOps y profesionales de TI. Consulta más detalles sobre LLMOps aquí.
Existen muchos recursos disponibles para encontrar más información sobre los LLM, entre ellos:
