¿Qué es el ajuste fino?

Adaptar modelos básicos entrenados previamente a tareas específicas mediante el entrenamiento continuo en conjuntos de datos seleccionados, mejorando el rendimiento y conservando el conocimiento general.

por Personal de Databricks

Los métodos incluyen el ajuste fino completo, que actualiza todos los parámetros del modelo y requiere un cálculo considerable; técnicas de optimización de parámetros (LoRA, adaptadores, ajuste de prefijos), que modifican pequeños subconjuntos; y el ajuste de instrucciones, que mejora la capacidad del modelo para seguir diversas instrucciones.
El proceso requiere la selección de conjuntos de datos de entrenamiento de alta calidad representativos de las tareas objetivo; la selección de hiperparámetros adecuados (tasa de aprendizaje, tamaño del lote); la monitorización de las métricas de validación para evitar el sobreajuste; y la evaluación en conjuntos de prueba retenidos.
Las aplicaciones abarcan la adaptación del dominio para vocabularios especializados (médico, legal); la especialización de tareas, que mejora el rendimiento en tipos de problemas específicos; y el ajuste fino de la alineación mediante RLHF, que aumenta la seguridad y la utilidad de los modelos.

Comprender el ajuste preciso

Al entrenar modelos de inteligencia artificial (IA) y aprendizaje automático (ML) para un propósito específico, los científicos de datos e ingenieros descubrieron que es más fácil y menos costoso modificar modelos de lenguaje de gran tamaño (LLM) preentrenados existentes que entrenar modelos nuevos desde cero. Un modelo de lenguaje de gran tamaño es una IA poderosa y de propósito general que se entrena con vastos conjuntos de datos para comprender y generar texto similar al humano en una amplia gama de temas y tareas.

La capacidad de aprovechar el aprendizaje profundo de los modelos existentes puede reducir la cantidad de potencia de cálculo y datos orquestados necesarios para adaptar un modelo a casos de uso específicos.

El ajuste fino es el proceso de adaptar o complementar modelos preentrenados mediante su entrenamiento en conjuntos de datos más pequeños y específicos de la tarea. Se ha convertido en una parte esencial del ciclo de desarrollo de LLM, ya que permite adaptar las capacidades lingüísticas básicas de los modelos fundamentales a una gran variedad de casos de uso.

Cómo funciona el ajuste fino de los LLM

Los modelos de lenguaje grande preentrenados se entrenan con enormes cantidades de datos para que sean eficaces en la comprensión del lenguaje natural y generen una respuesta similar a la humana en la entrada, lo que los convierte en un punto de partida natural para un modelo base.

El ajuste fino de estos modelos mejora su capacidad para realizar tareas específicas con mayor precisión, como analizar sentimientos, responder preguntas o resumir documentos. Existen LLMs de terceros, pero ajustar modelos con los propios datos de la organización ofrece resultados específicos de cada dominio.

La importancia y los beneficios del ajuste fino

El ajuste preciso conecta la inteligencia de los LLM de propósito general con los datos empresariales, permitiendo a las organizaciones adaptar los modelos de IA generativa (GenAI) a sus necesidades empresariales únicas con un mayor grado de especificidad y relevancia. Incluso las pequeñas empresas pueden desarrollar modelos personalizados que se ajusten a sus necesidades y presupuestos.

El ajuste fino reduce significativamente la necesidad de invertir en una infraestructura costosa para entrenar modelos desde cero. Al ajustar los modelos preentrenados, las organizaciones pueden lograr un tiempo de comercialización más rápido con una latencia de inferencia reducida, ya que el modelo se adapta de manera más eficiente a casos de uso específicos.

Las técnicas de ajuste fino ayudan a reducir el uso de la memoria y aceleran el proceso de entrenamiento de modelos fundamentales con conocimientos especializados y específicos del dominio, lo que ahorra mano de obra y recursos.

Cuando ajustas un modelo de lenguaje con tus datos propietarios en Databricks, tus conjuntos de datos únicos no están expuestos a riesgos de terceros asociados con entornos generales de entrenamiento de modelos. 

Tipos de ajuste fino

El ajuste fino puede ayudar a mejorar la precisión y relevancia de los resultados de un modelo, lo que los hace más efectivos en aplicaciones especializadas en comparación con los modelos de base ampliamente entrenados. Intenta adaptar el modelo para comprender y generar texto específico de un dominio o sector concreto. El modelo se ajusta con precisión en un conjunto de datos compuestos por texto del dominio de destino con el fin de mejorar su contexto y conocimiento de las tareas específicas del dominio. El proceso puede ser muy intensivo en términos de recursos, pero las nuevas técnicas hacen que el ajuste fino sea mucho más eficiente. Algunas de las formas en que las organizaciones afinan sus LLM son las siguientes:

Ajuste fino completo: el ajuste fino completo implica optimizar o entrenar todas las capas de la red neuronal. Si bien este enfoque generalmente produce los mejores resultados, también es el más intensivo en recursos y consume mucho tiempo.
Ajuste fino parcial: reduce las demandas computacionales al actualizar solo el subconjunto seleccionado de parámetros preentrenados más críticos para el rendimiento del modelo en tareas relevantes posteriores.
Ajuste fino aditivo: los métodos aditivos suman parámetros o capas adicionales al modelo, congelan los pesos preentrenados existentes y entrenan solo esos nuevos componentes.
Aprendizaje con pocos ejemplos: cuando no es viable recopilar un gran conjunto de datos etiquetados, el aprendizaje con pocos ejemplos intenta abordar este problema al brindar unos pocos ejemplos (o muestras) de la tarea requerida.
Aprendizaje por transferencia: Esta técnica permite que un modelo realice una tarea distinta a aquella para la que fue inicialmente entrenado. La idea principal es aprovechar el conocimiento que el modelo ha adquirido de un conjunto de datos amplio y general, y aplicarlo a una tarea más específica o relacionada.

Ajuste fino eficiente de parámetros

El ajuste fino eficiente en parámetros (PEFT) es un conjunto de técnicas diseñadas para adaptar grandes modelos preentrenados a tareas específicas mientras se minimizan los recursos computacionales y los requisitos de almacenamiento. Este enfoque es beneficioso para aplicaciones con recursos limitados o que requieren varias tareas de ajuste fino. Los métodos de PEFT, como la adaptación de rango bajo (LoRA) y el ajuste fino basado en adaptadores, funcionan al ingresar una pequeña cantidad de parámetros entrenables en lugar de actualizar todo el modelo. Las capas adaptadoras, un componente clave del PEFT, son modelos ligeros y entrenables insertados en cada capa de un modelo preentrenado.

Estos adaptadores, que vienen en variantes como Secuencial, Residual y Paralelo, ajustan la salida del modelo sin alterar los pesos originales, los preservan y permiten ajustes específicos por tarea. Por ejemplo, LoRA puede ajustar de manera eficiente grandes modelos de lenguaje para tareas como generar descripciones de productos. Mientras tanto, la adaptación cuantificada de bajo rango (QLoRA) se enfoca en reducir la memoria y la carga computacional mediante el uso de cuantificación. QLoRA optimiza la memoria con matrices cuantificadas de rango bajo, lo que lo hace muy eficiente para tareas en las que los recursos de hardware son limitados.

Cuándo usar el ajuste preciso

El ajuste fino aporta un conjunto de datos más enfocado al modelo, como terminología específica del sector o interacciones centradas en tareas. Esto ayuda al modelo a generar respuestas más relevantes para el caso de uso, que pueden incluir desde personalizar o complementar los conocimientos básicos del modelo hasta ampliarlo a tareas y ámbitos completamente nuevos.

Adaptación específica para una tarea: cuando se dispone de un modelo de lenguaje preentrenado y deseas adaptarlo para realizar una tarea específica, como el análisis de sentimientos o la generación de texto para un dominio concreto a través de datos específicos de ese dominio. En lugar de entrenar un modelo grande desde cero, puede comenzar con un modelo preentrenado y ajustarlo a su tarea específica para aprovechar la comprensión general del lenguaje para la nueva tarea.
Mitigación del sesgo: el ajuste fino se puede utilizar para reducir o contrarrestar los sesgos presentes en un modelo preentrenado, lo que proporciona datos de entrenamiento equilibrados y representativos.
Seguridad de datos y cumplimiento: al trabajar con datos confidenciales, puedes ajustar un modelo localmente en tu infraestructura segura para garantizar que el modelo nunca salga de tu entorno controlado.
Disponibilidad limitada de datos: el ajuste fino es particularmente beneficioso cuando tienes datos etiquetados limitados para tu tarea específica. En lugar de entrenar un modelo desde cero, puedes aprovechar el conocimiento de un modelo preentrenado y adaptarlo a tu tarea a través de un conjunto de datos más pequeño.
Aprendizaje continuo: el ajuste fino es útil para escenarios de aprendizaje continuo donde el modelo necesita adaptarse a los cambios en los datos y requisitos a largo plazo. Permite actualizar periódicamente el modelo sin empezar de cero.

Los LLM también se pueden ajustar para ajustar aplicaciones específicas de la industria, como en el sector de la salud, donde el ajuste preciso de los datos médicos patentados puede resultar en diagnósticos y tratamientos más precisos. De igual manera, en las aplicaciones de finanzas, se pueden enseñar modelos afinados para detectar fraudes mediante el análisis de datos de transacciones y el comportamiento del cliente.

El proceso de ajuste preciso

Configuración del entorno: el ajuste fino de un modelo suele ser un proceso repetitivo, por lo que la mayoría de los modelos de código abierto se entrenarán más de una vez. Esto significa que tener los datos de entrenamiento en la misma plataforma de ML será crucial tanto para el rendimiento como para el costo. El ajuste fino de un modelo de IA generativa en datos empresariales requiere acceso a información patentada y, a medida que tu negocio avance en la curva de madurez de la IA, la cantidad de modelos en ejecución solo crecerá, lo que aumentará la demanda de acceso a los datos. El entorno de entrenamiento del modelo debe tener la capacidad de rastrear el movimiento de los datos (linaje) y debe poder manejar todos los parámetros del modelo en la memoria, por lo que normalmente se necesita una arquitectura paralela para lograr una eficiencia computacional.
Selecciona un modelo base: hoy en día existen muchos conjuntos de datos de código abierto, modelos y bibliotecas de indicaciones para diferentes tareas: arquitectura, tamaño, capas de datos de entrenamiento y rendimiento en tareas relevantes para seleccionar un modelo que se ajuste de cerca a las características de la tarea objetivo.
Preparación de datos: Transforme los datos a un formato adecuado para el ajuste fino supervisado. El ajuste fino supervisado entrena aún más un modelo para generar texto condicionado a un indicador proporcionado.
Ajusta los parámetros del modelo: Comienza con un modelo existente y auméntalo o ajústalo con datos empresariales. Extiende estos modelos con técnicas como la generación aumentada por recuperación (RAG), el PEFT o el perfeccionamiento estándar.
Entrenamiento y evaluación: Evalúa regularmente el progreso del modelo durante el entrenamiento para rastrear su efectividad e implementar las modificaciones necesarias. Esto implica evaluar el rendimiento del modelo a través de un conjunto de datos de validación distinto durante todo el período de entrenamiento.

Ajuste preciso en el aprendizaje automático

Los LLM son modelos de aprendizaje automático que realizan tareas relacionadas con el lenguaje, como la traducción, responder preguntas, chatear, resumir contenido y generar contenido y código. Los LLM extraen valor de enormes conjuntos de datos y hacen que ese "aprendizaje" sea accesible de forma inmediata. Este proceso de "aprendizaje de transferencia" utiliza modelos preentrenados para calcular características que se utilizarán en otros modelos descendentes, lo que reduce significativamente el tiempo necesario para entrenar y ajustar un nuevo modelo. Consulta la caracterización para el aprendizaje por transferencia  para obtener más información y ver un ejemplo.

Desafíos y mejores prácticas

Desafíos comunes

Desviación del modelo: el rendimiento de un modelo puede deteriorarse con el tiempo. Para mantener un rendimiento óptimo, es posible que sea necesario realizar un seguimiento y un ajuste periódicos.
Experimentación en varios modelos: experimentación rápida en varios modelos, que incluye la gestión de credenciales, límites de volumen, permisos y sintaxis de consultas de diferentes proveedores de modelos.
Falta de contexto empresarial: los modelos de base tienen un amplio conocimiento, pero les falta el conocimiento interno y la experiencia en el dominio.
Puesta en práctica de modelos: las solicitudes y las respuestas de los modelos deben supervisarse constantemente con fines de calidad, depuración y seguridad. Las diferentes interfaces entre los modelos dificultan su gestión e integración.
Sobreajuste: cuando los modelos se entrenan demasiado cerca de un conjunto de datos específico para funcionar bien en datos nuevos e invisibles, pueden perder la capacidad de generalizar.
Amplificación del sesgo: cuando los sesgos inherentes al modelo preentrenado se intensifican durante el ajuste fino, pueden intensificar los sesgos en los nuevos conjuntos de datos.
Complejidad de los hiperparámetros: sin los marcos y herramientas adecuados, el proceso de identificación de la configuración correcta de los hiperparámetros requiere mucho tiempo y resulta computacionalmente costoso.

MEJORES PRÁCTICAS

Aprovecha los modelos preentrenados: estos comienzan con el conocimiento de grandes cantidades de datos y una comprensión general del lenguaje, lo que permite a los equipos de datos centrarse en la capacitación específica del dominio.
Comienza de a poco: cuando los recursos de cómputo son limitados, los modelos más pequeños requieren menos energía y memoria, lo que hace que sea más fácil y rápido experimentar y repetirlos. Podrías empezar con subconjuntos de datos más pequeños y escalar gradualmente hasta el conjunto de datos completo.
Utilice conjuntos de datos de alta calidad: Asegúrese de que el conjunto de datos sea representativo de la tarea y el dominio para minimizar el ruido y los errores.
Experimenta con formatos de datos: incluir diversos tipos de entrada de datos ayuda al modelo a desarrollar versatilidad en sus respuestas y a funcionar en una gama más amplia de escenarios.
Uso de hiperparámetros: deben ajustarse para equilibrar la eficiencia del aprendizaje y prevenir el sobreajuste. Experimenta con diferentes valores de hiperparámetros para mejorar la precisión del modelo.

Cuándo no conviene realizar un ajuste preciso

Para evitar cualquier posible “sobreajuste” del modelo, ano agregues o ajustes tareas que sean demasiado similares a las del modelo preentrenado, ya que podría perder su capacidad de generalizar a partir de los conjuntos de datos originales. Expandir los conjuntos de datos de entrenamiento puede aumentar la precisión del modelo.

Futuro del ajuste fino

Se sigue trabajando para democratizar la IA generativa al reducir la dependencia de grandes recursos informáticos y facilitar la personalización confiable de las implementaciones de LLM. Afinar los LLMs a gran escala requiere herramientas más automatizadas e inteligentes para reducir aún más esa dependencia.

Los avances como LoRA agilizan el proceso, marcan el camino para las herramientas más inteligentes que puedan acceder a fuentes externas para validar en tiempo real, comprobar la salida del modelo y mejorar su rendimiento.

Una mayor integración puede producir LLMs que generen sus propios conjuntos de datos de entrenamiento mediante la creación de preguntas y el ajuste fino basado en las respuestas seleccionadas. Esto facilita la integración de LLMs ajustados en un flujo de trabajo empresarial y mejora las operaciones comerciales.

En muchos casos de uso, los modelos de IA de hoy en día tienen un rendimiento igual o cercano a la precisión humana, pero las preocupaciones continúan en torno a la IA ética y el sesgo en el desarrollo de LLMs, lo que significa que los proveedores deben mantenerse comprometidos a garantizar prácticas de IA responsables y justas.

Cuando entrenas LLMs para tareas, industrias o conjuntos de datos específicos, amplías las capacidades de estos modelos generalizados. Un servicio unificado para entrenar, implementar, gobernar, consultar y monitorear modelos te permite gestionar todos los modelos en un solo lugar y consultarlos con una única API, lo que brinda eficiencia, precisión y sostenibilidad rentables.

De cara al futuro, los avances en el ajuste fino multimodal están empujando los límites de lo que los modelos de IA pueden hacer, lo que permite integrar varios tipos de datos, como imágenes, texto y voz, en una única solución afinada. A medida que los modelos de IA afinados se vuelven más precisos, eficientes y escalables, espera a que se vuelvan más integrales en las operaciones empresariales y fomenten una mayor adopción en todos los sectores.

Recursos adicionales

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs