Human in the loop (HITL) es un enfoque de AI y aprendizaje automático en el que las personas participan activamente en el entrenamiento, la supervisión o la toma de decisiones de un sistema para mejorar la precisión, la seguridad y la alineación ética. El "bucle" describe el ciclo básico: un modelo genera un resultado, una persona lo revisa o corrige, y esa retroalimentación vuelve al sistema. Cada corrección enseña al modelo a comportarse más como la gente espera.
HITL no se limita a una sola etapa de desarrollo. Puede aparecer a lo largo de todo el ciclo de vida de la AI, desde el etiquetado de datos de entrenamiento y la revisión de los resultados del modelo hasta la aprobación de las acciones de los agentes en producción. Es especialmente importante en casos extremos y situaciones de alto riesgo donde los errores tienen consecuencias reales: una AI de radiología que marca una radiografía, un agente de AI que se prepara para modificar una base de datos de producción o un sistema de detección de fraudes que gestiona una transacción inusual.
Las siguientes secciones explican cómo funciona HITL en la práctica, cómo se compara con otros enfoques relacionados, dónde se aplica en distintas industrias y cuándo podría no ser la opción adecuada.
Las organizaciones utilizan HITL para hacer que los sistemas de AI sean más fiables y confiables sin perder la velocidad de la automatización. Los beneficios se acumulan: una mejor retroalimentación humana conduce a mejores datos de entrenamiento, mejores datos de entrenamiento conducen a mejores modelos, y mejores modelos requieren menos intervención.
HITL no es un solo paso o punto de control. Es un patrón de diseño que puede aparecer a lo largo de todo el ciclo de vida de la AI, desde la preparación de los datos de entrenamiento hasta la revisión de los resultados después del despliegue. Así es como se ve en la práctica.
No todos los sistemas de AI necesitan humanos en cada etapa. La mayoría de los sistemas HITL maduros utilizan umbrales de confianza y puntuación de riesgo para dirigir solo un subconjunto de decisiones a la revisión humana. Eso es lo que hace que HITL sea escalable en la práctica.
Estos tres términos describen diferentes niveles de participación humana en los sistemas de AI, y es fácil confundirlos. La mayor diferencia radica en qué tan estrechamente se involucran las personas en las decisiones y con qué rapidez pueden intervenir cuando es necesario.
| Enfoque | Rol humano | Tiempos | ¿Requiere revisión humana? | Ejemplo | Perfil de riesgo típico |
|---|---|---|---|---|---|
| Human in the loop (HITL) | Valida, corrige o aprueba activamente los resultados de la AI | Síncrono: ocurre antes de que se tome una medida | Sí, para decisiones marcadas o sensibles | Un radiólogo que revisa la detección de tumores de una AI antes de finalizar un diagnóstico | Decisiones de alto riesgo y menor volumen donde la precisión importa más que la velocidad |
| Human on the loop (HOTL) | Supervisa la actividad de la AI e interviene cuando algo parece incorrecto | Asíncrono: se ejecuta junto al sistema de AI | A veces, por excepción | Un analista de fraudes que observa un panel de bloqueos de transacciones automatizados | Decisiones de riesgo medio y mayor volumen donde tanto la velocidad como la supervisión son importantes |
| Human over the loop | Establece políticas, audita los resultados y ajusta el sistema a lo largo del tiempo | Revisión periódica en lugar de participación en tiempo real | No, no a nivel de decisión individual | Un equipo de cumplimiento que revisa las decisiones de concesión de préstamos de la AI cada trimestre | Sistemas de menor riesgo o altamente automatizados con sólidos controles de gobernanza |
En la práctica, muchos sistemas de AI utilizan una combinación de los tres enfoques. Las decisiones de mayor riesgo pueden requerir la aprobación humana directa a través de HITL, mientras que el monitoreo de rutina se realiza "on the loop" y la gobernanza se lleva a cabo "over the loop". El equilibrio adecuado depende de lo que esté en juego, de la escala del sistema y de cuánto juicio humano requiera realmente la tarea.
HITL y RLHF están estrechamente relacionados, pero no son intercambiables.
HITL es el concepto más amplio. Describe cualquier sistema en el que las personas ayudan a guiar, revisar o mejorar el comportamiento de la AI. Esto puede ocurrir durante el entrenamiento, en la toma de decisiones en tiempo real o una vez que el modelo ya se está ejecutando en producción.
RLHF es una forma específica de hacerlo. En RLHF, las personas clasifican o califican las respuestas del modelo para que el sistema aprenda qué respuestas son más útiles, precisas o alineadas con las expectativas humanas. Esa retroalimentación se utiliza luego para ayudar a entrenar y ajustar el modelo de lenguaje grande (LLM).
Por ejemplo, HITL también puede incluir el etiquetado de datos de entrenamiento, la revisión de los resultados del modelo en producción, la aprobación de las acciones de los agentes antes de que ocurran o el envío de correcciones humanas de vuelta al sistema.
La forma más sencilla de pensarlo es la siguiente: RLHF se centra específicamente en mejorar cómo aprende un modelo durante el entrenamiento, mientras que HITL describe el rol más amplio que desempeñan las personas al supervisar y mejorar los sistemas de AI a lo largo de todo su ciclo de vida.
HITL es más común cuando las decisiones de la AI tienen consecuencias reales o requieren criterio, contexto o experiencia humana. En muchos sistemas de AI empresariales, las personas no están allí para reemplazar a la AI. Intervienen cuando el criterio es fundamental.
Según una investigación de Databricks sobre la adopción de AI empresarial, aproximadamente el 40% de los principales casos de uso de AI se centran en la experiencia del cliente, y muchos de esos flujos de trabajo aún dependen de alguna forma de revisión, escalación o aprobación humana en puntos críticos.
HITL es una de las formas más efectivas de hacer que los sistemas de AI sean más precisos, responsables y confiables, pero no es una salvaguarda mágica. La intervención humana solo ayuda cuando el sistema se diseña de manera cuidadosa. De lo contrario, HITL puede generar cuellos de botella, decisiones inconsistentes o la ilusión de supervisión sin un control real.
Cada paso de revisión humana añade tiempo y dinero al flujo de trabajo. En los sistemas de gran volumen, enviar demasiadas decisiones a las personas puede inflar rápidamente los costos y ralentizar los procesos sensibles al tiempo.
Es por eso que los sistemas HITL maduros suelen basarse en umbrales de confianza y puntuación de riesgo para derivar únicamente las decisiones que realmente requieren el juicio humano.
Cuando las personas revisan flujos continuos de resultados de AI que en su mayoría son correctos, la atención comienza a dispersarse de forma natural. Los revisores pueden empezar a aprobar los resultados demasiado rápido o dejar de evaluarlos con cuidado por completo, un fenómeno conocido como disminución de la vigilancia.
En algunos sistemas, los revisores también pueden volverse demasiado dependientes de la propia AI, confiando gradualmente en las recomendaciones del modelo en lugar de cuestionarlas activamente. Cuando esto sucede, la supervisión humana pierde sentido, aunque técnicamente haya una persona "en el bucle".
Este tipo de fatiga por monitoreo pasivo puede comenzar sorprendentemente rápido, especialmente en flujos de trabajo repetitivos. Los equipos suelen mitigarlo rotando a los revisores, limitando el tamaño de los lotes y auditando los patrones de aprobaci ón.
Las personas no siempre están de acuerdo entre sí, e incluso un mismo revisor puede tomar decisiones diferentes en situaciones similares. Sin directrices claras y una calibración periódica, la retroalimentación humana puede volverse inconsistente o ruidosa.
Esa inconsistencia importa porque la retroalimentación humana a menudo se convierte en parte de la señal de entrenamiento. Si la retroalimentación en sí no es confiable, mejorar el modelo de manera sistemática se vuelve mucho más difícil.
En muchos sistemas HITL, el "humano en el bucle" puede ser un contratista, un anotador o un revisor principiante, en lugar de un verdadero experto en el dominio. Esto plantea una pregunta importante: ¿quién está realmente capacitado para tomar la decisión?
Un diseño sólido de HITL no solo considera si hay humanos involucrados, sino también si se trata de los humanos adecuados, incluidos los expertos en la materia o, en algunos casos, las personas más afectadas por el resultado.
Una supervisión significativa solo funciona cuando los revisores realmente pueden evaluar lo que produjo el modelo y por qué. Si el sistema es demasiado opaco, complejo o rápido para evaluarlo en tiempo real, la aprobación humana puede convertirse en poco más que un mero trámite.
Las personas aportan sesgos, cometen errores y, a veces, intentan burlar el sistema. Los modelos de AI aprenden de esa retroalimentación de cualquier manera. En RLHF y otros sistemas HITL, una retroalimentación deficiente puede hacer que los modelos sean gradualmente menos precisos, menos justos o más fáciles de manipular.
Por eso, los programas HITL sólidos incluyen capacitación para los revisores, comprobaciones de concordancia y auditorías periódicas. La supervisión humana solo funciona cuando la propia retroalimentación es confiable.
HITL no siempre es la respuesta correcta. Hay situaciones en las que agregar la revisión humana introduce más problemas de los que resuelve.
La clave es adaptar la intervención humana a los riesgos, el volumen de decisiones y el valor real del juicio humano, en lugar de aplicar la supervisión por defecto en todas partes o confiar plenamente en el modelo.
HITL se vuelve aún más importante cuando los sistemas de AI van más allá de la generación de contenido y comienzan a realizar acciones en nombre del usuario.
Que un chatbot sugiera el borrador de un correo electrónico es una cosa. Que un agente de AI envíe realmente el correo electrónico, actualice un registro de CRM o active un flujo de trabajo posterior es algo muy diferente. Una vez que los sistemas de AI pueden realizar acciones reales dentro de los flujos de trabajo empresariales, los riesgos son mucho mayores.
Por eso, muchos agentes de AI están diseñados para detenerse antes de realizar acciones de mayor riesgo y solicitar primero la aprobación humana. Por ejemplo, un agente podría redactar un correo electrónico para un cliente, recomendar la actualización de una base de datos o preparar una solicitud de compra, pero esperar la aprobación antes de actuar.
Las acciones de menor riesgo a menudo pueden realizarse de forma automática, y el sistema muestra un resumen a posteriori en lugar de requerir aprobación cada vez.
HITL también desempeña un papel importante en las aplicaciones basadas en LLM en general. Los equipos pueden revisar el contenido generado antes de su publicación, clasificar o calificar las respuestas del modelo para el ajuste fino, o derivar conversaciones delicadas a agentes humanos cuando el modelo no tiene la suficiente confianza para responder por sí solo.
A medida que los agentes de AI pasan de las demostraciones a entornos de producción reales, las rutas de derivación claras y la supervisión humana se están convirtiendo rápidamente en requisitos fundamentales para la AI empresarial.
Llevar HITL a producción requiere más que agregar una cola de revisión o un botón de aprobación. Los equipos necesitan una forma de capturar la retroalimentación humana a escala, derivar las decisiones a las personas adecuadas, realizar un seguimiento del comportamiento del modelo y gobernar los datos confidenciales sin crear flujos de trabajo desconectados ni nuevos silos de datos.
Databricks admite esto a través de Agent Bricks, que incluye Agent Learning from Human Feedback (ALHF). En lugar de depender de calificaciones simples de aprobación o rechazo, ALHF captura una retroalimentación de lenguaje natural más rica de los expertos en el dominio y la utiliza para mejorar el comportamiento de los agentes en futuras interacciones.
La retroalimentación humana puede hacer más que corregir una sola respuesta. Con Agent Bricks, los equipos pueden usar la retroalimentación para mejorar el sistema de agentes en general, lo que incluye:
En un estudio de caso sobre el Agent Bricks Knowledge Assistant, la capacidad de un agente de Q&A para seguir instrucciones de expertos mejoró de aproximadamente el 12% al 80% con solo 32 elementos de retroalimentación humana.
Databricks también trata cada interacción como un registro gobernado y trazable. Las trazas de extremo a extremo capturan cómo se generaron las respuestas, mientras que Unity Catalog proporciona la capa de gobernanza necesaria para gestionar los datos sensibles y el comportamiento de los agentes.
Esto ofrece a los equipos una visibilidad centralizada de:
Sin visibilidad, los equipos no pueden saber si la retroalimentación humana realmente está mejorando el sistema. En lugar de tratar la supervisión como un proceso manual desconectado, Databricks ayuda a que HITL forme parte del propio sistema, para que las organizaciones puedan mejorar los modelos, mantener el cumplimiento normativo y confiar en los sistemas de IA en producción.
¿Cuál es la diferencia entre human in the loop y human on the loop?
Human in the loop (HITL) significa que la IA se detiene y espera a que una persona revise o apruebe una decisión antes de actuar. Human on the loop (HOTL) significa que la IA actúa por su cuenta mientras una persona supervisa el sistema e interviene solo cuando algo parece incorrecto.
En resumen, HITL ofrece un control más estricto. HOTL está diseñado para escalar.
¿Cuál es un ejemplo de human in the loop?
Un radiólogo que revisa la detección de tumores de un sistema de IA antes de confirmar un diagnóstico es un ejemplo clásico de HITL.
En la IA empresarial, otro ejemplo común es un agente de IA que se detiene antes de enviar un correo electrónico externo, actualizar un registro de producción o activar un flujo de trabajo para que una persona pueda aprobar la acción primero.
¿Es human in the loop lo mismo que RLHF?
No. HITL es un concepto más amplio. Describe sistemas en los que las personas ayudan a definir cómo se comporta la IA.
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una técnica específica dentro de esa categoría más amplia. En RLHF, las personas clasifican o califican las respuestas del modelo durante el entrenamiento para ayudar con el ajuste fino del modelo.
Cada sistema de RLHF es una forma de HITL, pero HITL también incluye aspectos como el etiquetado de datos, la revisión de resultados y la aprobación de las acciones de los agentes.
¿Cuándo se debe utilizar human in the loop?
HITL es más útil cuando las decisiones son de gran importancia, cuando los errores conllevan consecuencias reales o cuando los sistemas de IA se enfrentan a situaciones para las que no fueron entrenados.
También es importante en sectores regulados donde las organizaciones necesitan una supervisión humana documentada.
Pero HITL no siempre es la opción adecuada. Para tareas rápidas, de bajo riesgo o de un volumen extremadamente alto, los sistemas totalmente automatizados pueden tener más sentido.
¿Cómo se aplica human in the loop a los agentes de IA?
Los agentes de IA aumentan el nivel de riesgo porque pueden realizar acciones reales dentro de los sistemas empresariales, como enviar mensajes, actualizar bases de datos o activar flujos de trabajo de forma automática.
Por eso, muchos agentes están diseñados para detenerse antes de realizar acciones de mayor impacto y solicitar primero la aprobación humana.
A medida que los agentes de IA pasan de las demostraciones a entornos de producción reales, las rutas de escalabilidad claras y una supervisión significativa se están convirtiendo rápidamente en una práctica estándar. Databricks Agent Bricks incluye Agent Learning from Human Feedback (ALHF) para ayudar a las organizaciones a crear bucles de retroalimentación escalables para agentes y aplicaciones de IA.
HITL ayuda a los equipos a mantener la IA precisa, confiable y responsable a medida que los sistemas pasan de las demostraciones a entornos de producción reales. Funciona mejor cuando la retroalimentación humana, la gobernanza y la evaluación residen en la misma plataforma, en lugar de en herramientas y flujos de trabajo desconectados.
Vea cómo Agent Bricks utiliza la retroalimentación humana y la evaluación continua para crear agentes de IA de alta calidad con los datos de su empresa.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.