Los chatbots son el caso de uso más adoptado para aprovechar las potentes capacidades de chat y razonamiento de los modelos de lenguaje grandes (LLM). La arquitectura de generación aumentada por recuperación (RAG) se está convirtiendo rápidamente en el estándar de la industria para desarrollar chatbots porque combina los beneficios de una base de conocimientos (a través de un almacén de vectores) y los modelos generativos (p. ej., GPT-3.5 y GPT-4) para reducir las alucinaciones, mantener la información actualizada y aprovechar el conocimiento específico del dominio. Sin embargo, evaluar la calidad de las respuestas de los chatbots sigue siendo un problema sin resolver en la actualidad. Sin estándares definidos en la industria, las organizaciones recurren a la calificación humana (etiquetado), lo cual consume mucho tiempo y es difícil de escalar.
Aplicamos la teoría a la práctica para ayudar a formar las mejores prácticas para la evaluación automatizada de LLM, de modo que pueda implementar aplicaciones RAG en producción de forma rápida y con confianza. Este blog representa la primera de una serie de investigaciones que estamos llevando a cabo en Databricks para proporcionar aprendizajes sobre la evaluación de LLM. Toda la investigación de esta publicación fue realizada por Quinn Leng, Ingeniero de Software Sénior en Databricks y creador del Asistente de IA para la Documentación de Databricks.
Recientemente, la comunidad de LLM ha estado explorando el uso de “LLM como jueces” para la evaluación automatizada, y muchos utilizan LLM potentes como GPT-4 para evaluar los resultados de sus LLM. El artículo de investigación del grupo lmsys explora la viabilidad y los pros y contras de usar varios LLM (GPT-4, ClaudeV1, GPT-3.5) como jueces para tareas de escritura, matemáticas y conocimiento general.
A pesar de toda esta gran investigación, todavía hay muchas preguntas sin respuesta sobre cómo aplicar los jueces de LLM en la práctica:
Exploramos las opciones posibles para las preguntas descritas anteriormente en el contexto de nuestra propia aplicación de chatbot en Databricks. Creemos que nuestros hallazgos se generalizan y, por lo tanto, pueden ayudar a su equipo a evaluar eficazmente los chatbots basados en RAG a un costo menor y con mayor rapidez:
Basándonos en nuestra investigación, recomendamos el siguiente procedimiento al utilizar un juez de LLM:
El resto de esta publicación recorrerá la serie de experimentos que realizamos para formular estas mejores prácticas.

El experimento tuvo tres pasos:
Generar el conjunto de datos de evaluación: Creamos un conjunto de datos a partir de 100 preguntas y contexto de los documentos de Databricks. El contexto representa (fragmentos de) documentos que son relevantes para la pregunta.

Además, se utilizaron las siguientes técnicas para evitar el sesgo posicional y mejorar la fiabilidad:
Para confirmar el nivel de coincidencia entre los anotadores humanos y los LLM jueces, enviamos las hojas de respuestas (escala de calificación de 0 a 3) de gpt-3.5-turbo y vicuna-33b a una empresa de etiquetado para recopilar etiquetas humanas y, luego, comparamos el resultado con la calificación de GPT-4. A continuación, se presentan los hallazgos:
Los jueces humanos y de GPT-4 pueden alcanzar un acuerdo superior al 80 % en la puntuación de corrección y legibilidad. Y si reducimos el requisito a una diferencia de puntuación menor o igual a 1, el nivel de acuerdo puede superar el 95 %.
![]() | ![]() |
La métrica de Exhaustividad tiene menos alineación, lo que coincide con lo que hemos escuchado de las partes interesadas del negocio, quienes compartieron que “exhaustivo” parece más subjetivo que métricas como Exactitud o Legibilidad.
El artículo de lmsys usa este prompt para instruir al juez de LLM para que evalúe en función de la utilidad, la relevancia, la precisión, la profundidad, la creatividad y el nivel de detalle de la respuesta. Sin embargo, el artículo no comparte detalles específicos sobre la rúbrica de calificación. De nuestra investigación, descubrimos que muchos factores pueden afectar significativamente la puntuación final, por ejemplo:
Desarrollamos una rúbrica para instruir a un juez de LLM para una escala de calificación determinada, probando lo siguiente:
|
Adaptamos el prompt original del artículo de lmsys para emitir nuestras métricas sobre corrección, exhaustividad y legibilidad, y también para indicarle al juez que proporcione una justificación de una línea antes de dar cada puntaje (para beneficiarse del razonamiento de cadena de pensamiento). A continuación se presentan la versión zero-shot del prompt, que no proporciona ningún ejemplo, y la versión few-shot del prompt, que proporciona un ejemplo para cada puntaje. Luego, utilizamos las mismas hojas de respuestas como entrada y comparamos los resultados calificados de los dos tipos de indicaciones.
De este experimento, aprendimos varias cosas:




El artículo sobre LLM como juez usa una escala no entera de 0 a 10 (es decir, de punto flotante) para la escala de calificación; en otras palabras, utiliza una rúbrica de alta precisión para la puntuación final. Descubrimos que estas escalas de alta precisión causan problemas en etapas posteriores con lo siguiente:
Experimentamos con varias escalas de calificación de baja precisión para proporcionar orientación sobre la “mejor” para usar, finalmente recomendamos una escala de enteros de 0-3 o 0-4 (si desea ceñirse a la escala de Likert). Probamos 0-10, 1-5, 0-3 y 0-1 y aprendimos:


Como se muestra en los gráficos anteriores, tanto GPT-4 como GPT-3.5 pueden mantener una clasificación coherente de los resultados utilizando diferentes escalas de calificación de baja precisión; por lo tanto, el uso de una escala de calificación más baja como 0~3 o 1~5 puede equilibrar la precisión con la explicabilidad).
Por lo tanto, recomendamos 0-3 o 1-5 como escala de calificación para que sea más fácil alinearla con las etiquetas humanas, razonar sobre los criterios de puntuación y proporcionar ejemplos para cada puntaje en el rango.
El artículo LLM-as-judge muestra que tanto el juicio del LLM como el humano clasifican el modelo Vicuna-13B como un competidor cercano a GPT-3.5:
(La figura proviene de la Figura 4 del documento LLM-as-judge: https://arxiv.org/pdf/2306.05685.pdf )
Sin embargo, cuando comparamos el conjunto de modelos para nuestros casos de uso de preguntas y respuestas (Q&A) sobre documentos, descubrimos que incluso el modelo Vicuna-33B, mucho más grande, tiene un rendimiento notablemente peor que GPT-3.5 al responder preguntas basadas en el contexto. Estos hallazgos también son verificados por GPT-4, GPT-3.5 y jueces humanos (como se mencionó en el Experimento 1), los cuales coinciden en que Vicuna-33B tiene un rendimiento peor que GPT-3.5.

Analizamos más de cerca el conjunto de datos de benchmark propuesto por el artículo y descubrimos que las 3 categorías de tareas (escritura, matemáticas, conocimiento) no reflejan ni contribuyen directamente a la capacidad del modelo para sintetizar una respuesta basada en un contexto. En cambio, intuitivamente, los casos de uso de preguntas y respuestas (Q&A) de documentos necesitan benchmarks sobre comprensión de lectura y seguimiento de instrucciones. Por lo tanto, los resultados de la evaluación no se pueden transferir entre casos de uso y necesitamos crear benchmarks específicos para cada caso de uso para evaluar adecuadamente qué tan bien un modelo puede satisfacer las necesidades del cliente.
Con los experimentos anteriores, exploramos cómo diferentes factores pueden afectar significativamente la evaluación de un chatbot y confirmamos que un LLM como juez puede reflejar en gran medida las preferencias humanas para el caso de uso de preguntas y respuestas de documentos. En Databricks, estamos desarrollando la API de evaluación de MLflow para ayudar a su equipo a evaluar eficazmente sus aplicaciones de LLM en función de estos hallazgos. MLflow 2.4 introdujo la API de evaluación para LLM para comparar la salida de texto de varios modelos en paralelo, MLflow 2.6 introdujo métricas basadas en LLM para la evaluación como la toxicidad y la perplejidad, ¡y estamos trabajando para dar soporte a LLM-como-juez en un futuro próximo!
Mientras tanto, recopilamos la lista de recursos a los que hicimos referencia en nuestra investigación a continuación:
IA
7 de enero de 2025/8 min de lectura

