¿Qué es el humano en el bucle (HITL)?

HITL debe basarse en el riesgo, no aplicarse en todas partes. Los equipos obtienen el mayor valor cuando la revisión humana se reserva para decisiones de alto impacto, inciertas o reguladas.
Los agentes de AI hacen que la aprobación humana sea más importante. Cuando los agentes pueden actualizar registros, enviar mensajes o activar flujos de trabajo, los equipos necesitan rutas de escalada claras antes de que se realicen las acciones.
La retroalimentación humana debe convertirse en datos operativos. El valor real de HITL se obtiene cuando la retroalimentación se captura, se gobierna y se utiliza para mejorar el comportamiento del agente a lo largo del tiempo, en lugar de dejarla en flujos de trabajo de revisión desconectados.

Human in the loop (HITL) es un enfoque de AI y aprendizaje automático en el que las personas participan activamente en el entrenamiento, la supervisión o la toma de decisiones de un sistema para mejorar la precisión, la seguridad y la alineación ética. El "bucle" describe el ciclo básico: un modelo genera un resultado, una persona lo revisa o corrige, y esa retroalimentación vuelve al sistema. Cada corrección enseña al modelo a comportarse más como la gente espera.

HITL no se limita a una sola etapa de desarrollo. Puede aparecer a lo largo de todo el ciclo de vida de la AI, desde el etiquetado de datos de entrenamiento y la revisión de los resultados del modelo hasta la aprobación de las acciones de los agentes en producción. Es especialmente importante en casos extremos y situaciones de alto riesgo donde los errores tienen consecuencias reales: una AI de radiología que marca una radiografía, un agente de AI que se prepara para modificar una base de datos de producción o un sistema de detección de fraudes que gestiona una transacción inusual.

Las siguientes secciones explican cómo funciona HITL en la práctica, cómo se compara con otros enfoques relacionados, dónde se aplica en distintas industrias y cuándo podría no ser la opción adecuada.

Por qué los equipos utilizan HITL: precisión, confianza y cumplimiento en un solo bucle

Las organizaciones utilizan HITL para hacer que los sistemas de AI sean más fiables y confiables sin perder la velocidad de la automatización. Los beneficios se acumulan: una mejor retroalimentación humana conduce a mejores datos de entrenamiento, mejores datos de entrenamiento conducen a mejores modelos, y mejores modelos requieren menos intervención.

Mayor precisión. Los revisores humanos detectan los errores que el modelo pasa por alto, especialmente cuando el sistema encuentra entradas desconocidas o situaciones para las que los datos de entrenamiento no lo prepararon por completo.
Mejor gestión de casos extremos. Las personas pueden aportar criterio, contexto y sentido común en situaciones en las que el modelo puede tener dudas o enfrentarse a algo para lo que no fue entrenado.
Reducción de sesgos. La supervisión humana puede ayudar a los equipos a identificar y corregir resultados sesgados, dañinos o desproporcionados antes de que lleguen a los usuarios o a los sistemas posteriores.
Seguridad y alineación ética. Los puntos de control humanos evitan que se publiquen resultados dañinos, inapropiados o que no cumplan con las normativas.
Cumplimiento regulatorio. Muchas de las nuevas regulaciones de AI ahora exigen una supervisión humana significativa para los sistemas de mayor riesgo. Por ejemplo, el Artículo 14 de la EU AI Act exige que los sistemas de AI de alto riesgo admitan la supervisión e intervención humana, mientras que el NIST AI Risk Management Framework enfatiza la supervisión humana en aplicaciones de gran impacto.
Mayor confianza y adopción. Las personas están más dispuestas a confiar en los sistemas de AI si saben que un humano puede revisarlos o anular sus decisiones.
Mejora continua. Cada corrección se convierte en otra oportunidad de aprendizaje, lo que ayuda a que un sistema HITL bien diseñado no solo detecte errores, sino que elimine categorías enteras de fallos con el tiempo.

El bucle de retroalimentación explicado: cómo funciona HITL en la práctica

HITL no es un solo paso o punto de control. Es un patrón de diseño que puede aparecer a lo largo de todo el ciclo de vida de la AI, desde la preparación de los datos de entrenamiento hasta la revisión de los resultados después del despliegue. Así es como se ve en la práctica.

Etiquetado de datos. Las personas etiquetan o anotan datos brutos como imágenes, texto y audio para que el modelo tenga ejemplos precisos de los que aprender. Esas decisiones definen directamente el rendimiento del modelo.
Entrenamiento del modelo. Los humanos revisan y corrigen los resultados del modelo durante el entrenamiento para ayudar al sistema a aprender cómo es un resultado "correcto". Esto a menudo incluye el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), donde los revisores clasifican o califican las respuestas para guiar al modelo hacia mejores contestaciones.
Revisión de inferencias. Una vez que el modelo está en producción, las personas pueden revisar ciertos resultados antes de que se tome una medida. Esto suele ocurrir cuando las predicciones son dudosas, inusuales o están vinculadas a decisiones de mayor riesgo.
Escalación y anulación. Cuando un modelo supera un umbral de riesgo definido, el sistema puede transferir la decisión a una persona que la revisa, aprueba, rechaza o corrige antes de que el sistema continúe.
Retroalimentación continua. La retroalimentación humana no se detiene después del despliegue. Las correcciones y revisiones pueden volver al sistema, lo que ayuda a los equipos a reentrenar o ajustar el modelo para que el rendimiento mejore en lugar de sufrir desviaciones.

No todos los sistemas de AI necesitan humanos en cada etapa. La mayoría de los sistemas HITL maduros utilizan umbrales de confianza y puntuación de riesgo para dirigir solo un subconjunto de decisiones a la revisión humana. Eso es lo que hace que HITL sea escalable en la práctica.

In the loop, on the loop, over the loop: ¿cuál es la diferencia?

Estos tres términos describen diferentes niveles de participación humana en los sistemas de AI, y es fácil confundirlos. La mayor diferencia radica en qué tan estrechamente se involucran las personas en las decisiones y con qué rapidez pueden intervenir cuando es necesario.

Enfoque	Rol humano	Tiempos	¿Requiere revisión humana?	Ejemplo	Perfil de riesgo típico
Human in the loop (HITL)	Valida, corrige o aprueba activamente los resultados de la AI	Síncrono: ocurre antes de que se tome una medida	Sí, para decisiones marcadas o sensibles	Un radiólogo que revisa la detección de tumores de una AI antes de finalizar un diagnóstico	Decisiones de alto riesgo y menor volumen donde la precisión importa más que la velocidad
Human on the loop (HOTL)	Supervisa la actividad de la AI e interviene cuando algo parece incorrecto	Asíncrono: se ejecuta junto al sistema de AI	A veces, por excepción	Un analista de fraudes que observa un panel de bloqueos de transacciones automatizados	Decisiones de riesgo medio y mayor volumen donde tanto la velocidad como la supervisión son importantes
Human over the loop	Establece políticas, audita los resultados y ajusta el sistema a lo largo del tiempo	Revisión periódica en lugar de participación en tiempo real	No, no a nivel de decisión individual	Un equipo de cumplimiento que revisa las decisiones de concesión de préstamos de la AI cada trimestre	Sistemas de menor riesgo o altamente automatizados con sólidos controles de gobernanza

En la práctica, muchos sistemas de AI utilizan una combinación de los tres enfoques. Las decisiones de mayor riesgo pueden requerir la aprobación humana directa a través de HITL, mientras que el monitoreo de rutina se realiza "on the loop" y la gobernanza se lleva a cabo "over the loop". El equilibrio adecuado depende de lo que esté en juego, de la escala del sistema y de cuánto juicio humano requiera realmente la tarea.

HITL frente a RLHF: conceptos relacionados, tareas diferentes

HITL y RLHF están estrechamente relacionados, pero no son intercambiables.

HITL es el concepto más amplio. Describe cualquier sistema en el que las personas ayudan a guiar, revisar o mejorar el comportamiento de la AI. Esto puede ocurrir durante el entrenamiento, en la toma de decisiones en tiempo real o una vez que el modelo ya se está ejecutando en producción.

RLHF es una forma específica de hacerlo. En RLHF, las personas clasifican o califican las respuestas del modelo para que el sistema aprenda qué respuestas son más útiles, precisas o alineadas con las expectativas humanas. Esa retroalimentación se utiliza luego para ayudar a entrenar y ajustar el modelo de lenguaje grande (LLM).

Por ejemplo, HITL también puede incluir el etiquetado de datos de entrenamiento, la revisión de los resultados del modelo en producción, la aprobación de las acciones de los agentes antes de que ocurran o el envío de correcciones humanas de vuelta al sistema.

La forma más sencilla de pensarlo es la siguiente: RLHF se centra específicamente en mejorar cómo aprende un modelo durante el entrenamiento, mientras que HITL describe el rol más amplio que desempeñan las personas al supervisar y mejorar los sistemas de AI a lo largo de todo su ciclo de vida.

Dónde se aplica HITL: ejemplos del mundo real en distintas industrias

HITL es más común cuando las decisiones de la AI tienen consecuencias reales o requieren criterio, contexto o experiencia humana. En muchos sistemas de AI empresariales, las personas no están allí para reemplazar a la AI. Intervienen cuando el criterio es fundamental.

Según una investigación de Databricks sobre la adopción de AI empresarial, aproximadamente el 40% de los principales casos de uso de AI se centran en la experiencia del cliente, y muchos de esos flujos de trabajo aún dependen de alguna forma de revisión, escalación o aprobación humana en puntos críticos.

Imágenes médicas. Los radiólogos revisan y confirman los hallazgos marcados por la AI en las radiografías antes de que se finalice un diagnóstico.
Moderación de contenido. Los revisores humanos intervienen cuando las publicaciones son demasiado sutiles o ambiguas para que la AI las evalúe con confianza, especialmente en temas de discurso de odio, desinformación o imágenes sensibles donde el contexto puede cambiar por completo el significado.
Vehículos autónomos. Los conductores de seguridad u operadores remotos toman el control cuando el vehículo se encuentra en una situación que no puede navegar por sí mismo con confianza.
Servicios financieros. Los analistas revisan las aprobaciones de préstamos, las alertas de fraude o los casos de prevención de lavado de dinero cuando el modelo no tiene la suficiente confianza para tomar la decisión de manera independiente.
Centros de contacto. Los agentes humanos intervienen cuando los chatbots de AI no pueden resolver un problema del cliente o cuando una conversación se vuelve especialmente delicada o compleja.
Aplicaciones de AI generativa. Los editores revisan el contenido generado por AI antes de su publicación, mientras que los evaluadores califican los resultados para ayudar a mejorar las respuestas futuras. Consulta AI generativa para obtener más información sobre cómo funcionan estos sistemas.
Agentes de AI y uso de herramientas. En el caso de los agentes de AI que pueden realizar acciones como enviar correos electrónicos, actualizar registros o ejecutar código, las personas suelen aprobar las acciones de mayor impacto antes de que ocurra algo.
Procesamiento de documentos. Los especialistas verifican los datos extraídos de contratos, reclamaciones o facturas cuando la puntuación de confianza de un modelo cae por debajo de un umbral definido. Consulta el procesamiento inteligente de documentos para analizar en detalle este caso de uso.

HITL no es una garantía: limitaciones que todo equipo debe conocer

HITL es una de las formas más efectivas de hacer que los sistemas de AI sean más precisos, responsables y confiables, pero no es una salvaguarda mágica. La intervención humana solo ayuda cuando el sistema se diseña de manera cuidadosa. De lo contrario, HITL puede generar cuellos de botella, decisiones inconsistentes o la ilusión de supervisión sin un control real.

Latencia y costo: cada paso de revisión añade fricción

Cada paso de revisión humana añade tiempo y dinero al flujo de trabajo. En los sistemas de gran volumen, enviar demasiadas decisiones a las personas puede inflar rápidamente los costos y ralentizar los procesos sensibles al tiempo.

Es por eso que los sistemas HITL maduros suelen basarse en umbrales de confianza y puntuación de riesgo para derivar únicamente las decisiones que realmente requieren el juicio humano.

Pérdida de vigilancia: por qué los revisores dejan de prestar atención real

Cuando las personas revisan flujos continuos de resultados de AI que en su mayoría son correctos, la atención comienza a dispersarse de forma natural. Los revisores pueden empezar a aprobar los resultados demasiado rápido o dejar de evaluarlos con cuidado por completo, un fenómeno conocido como disminución de la vigilancia.

En algunos sistemas, los revisores también pueden volverse demasiado dependientes de la propia AI, confiando gradualmente en las recomendaciones del modelo en lugar de cuestionarlas activamente. Cuando esto sucede, la supervisión humana pierde sentido, aunque técnicamente haya una persona "en el bucle".

Este tipo de fatiga por monitoreo pasivo puede comenzar sorprendentemente rápido, especialmente en flujos de trabajo repetitivos. Los equipos suelen mitigarlo rotando a los revisores, limitando el tamaño de los lotes y auditando los patrones de aprobación.

El juicio humano no siempre es consistente, y eso importa

Las personas no siempre están de acuerdo entre sí, e incluso un mismo revisor puede tomar decisiones diferentes en situaciones similares. Sin directrices claras y una calibración periódica, la retroalimentación humana puede volverse inconsistente o ruidosa.

Esa inconsistencia importa porque la retroalimentación humana a menudo se convierte en parte de la señal de entrenamiento. Si la retroalimentación en sí no es confiable, mejorar el modelo de manera sistemática se vuelve mucho más difícil.

¿Quién cuenta como "el humano"?

En muchos sistemas HITL, el "humano en el bucle" puede ser un contratista, un anotador o un revisor principiante, en lugar de un verdadero experto en el dominio. Esto plantea una pregunta importante: ¿quién está realmente capacitado para tomar la decisión?

Un diseño sólido de HITL no solo considera si hay humanos involucrados, sino también si se trata de los humanos adecuados, incluidos los expertos en la materia o, en algunos casos, las personas más afectadas por el resultado.

Si los revisores no pueden entender la AI, la supervisión se vuelve simbólica

Una supervisión significativa solo funciona cuando los revisores realmente pueden evaluar lo que produjo el modelo y por qué. Si el sistema es demasiado opaco, complejo o rápido para evaluarlo en tiempo real, la aprobación humana puede convertirse en poco más que un mero trámite.

La retroalimentación humana puede ser errónea

Las personas aportan sesgos, cometen errores y, a veces, intentan burlar el sistema. Los modelos de AI aprenden de esa retroalimentación de cualquier manera. En RLHF y otros sistemas HITL, una retroalimentación deficiente puede hacer que los modelos sean gradualmente menos precisos, menos justos o más fáciles de manipular.

Por eso, los programas HITL sólidos incluyen capacitación para los revisores, comprobaciones de concordancia y auditorías periódicas. La supervisión humana solo funciona cuando la propia retroalimentación es confiable.

Cuándo dejar a los humanos fuera del bucle

HITL no siempre es la respuesta correcta. Hay situaciones en las que agregar la revisión humana introduce más problemas de los que resuelve.

Sistemas sensibles a la latencia. Las operaciones de alta frecuencia, los bucles de control de conducción autónoma y los sistemas de puntuación de fraude en tiempo real a menudo no pueden detenerse para una revisión humana en cada decisión.
Tareas de bajo riesgo y gran volumen. Cuando el costo de un error individual es bajo y los costos de revisión son altos, la automatización completa con auditorías periódicas suele ser más práctica.
Tareas en las que el modelo supera a los revisores. En tareas específicas y bien definidas, los modelos pueden superar constantemente a los revisores humanos. En esos casos, agregar personas puede introducir inconsistencias en lugar de detectar errores.
Razonamiento de AI no revisable. Si los humanos no pueden evaluar de manera realista el resultado porque el sistema es demasiado complejo o funciona demasiado rápido, HITL corre el riesgo de convertirse en un mero simulacro de rendición de cuentas en lugar de una supervisión significativa.

La clave es adaptar la intervención humana a los riesgos, el volumen de decisiones y el valor real del juicio humano, en lugar de aplicar la supervisión por defecto en todas partes o confiar plenamente en el modelo.

Subiendo la apuesta: HITL para agentes de AI y LLMs

HITL se vuelve aún más importante cuando los sistemas de AI van más allá de la generación de contenido y comienzan a realizar acciones en nombre del usuario.

Que un chatbot sugiera el borrador de un correo electrónico es una cosa. Que un agente de AI envíe realmente el correo electrónico, actualice un registro de CRM o active un flujo de trabajo posterior es algo muy diferente. Una vez que los sistemas de AI pueden realizar acciones reales dentro de los flujos de trabajo empresariales, los riesgos son mucho mayores.

Por eso, muchos agentes de AI están diseñados para detenerse antes de realizar acciones de mayor riesgo y solicitar primero la aprobación humana. Por ejemplo, un agente podría redactar un correo electrónico para un cliente, recomendar la actualización de una base de datos o preparar una solicitud de compra, pero esperar la aprobación antes de actuar.

Las acciones de menor riesgo a menudo pueden realizarse de forma automática, y el sistema muestra un resumen a posteriori en lugar de requerir aprobación cada vez.

HITL también desempeña un papel importante en las aplicaciones basadas en LLM en general. Los equipos pueden revisar el contenido generado antes de su publicación, clasificar o calificar las respuestas del modelo para el ajuste fino, o derivar conversaciones delicadas a agentes humanos cuando el modelo no tiene la suficiente confianza para responder por sí solo.

A medida que los agentes de AI pasan de las demostraciones a entornos de producción reales, las rutas de derivación claras y la supervisión humana se están convirtiendo rápidamente en requisitos fundamentales para la AI empresarial.

Cómo Databricks lleva HITL a producción

Llevar HITL a producción requiere más que agregar una cola de revisión o un botón de aprobación. Los equipos necesitan una forma de capturar la retroalimentación humana a escala, derivar las decisiones a las personas adecuadas, realizar un seguimiento del comportamiento del modelo y gobernar los datos confidenciales sin crear flujos de trabajo desconectados ni nuevos silos de datos.

Databricks admite esto a través de Agent Bricks, que incluye Agent Learning from Human Feedback (ALHF). En lugar de depender de calificaciones simples de aprobación o rechazo, ALHF captura una retroalimentación de lenguaje natural más rica de los expertos en el dominio y la utiliza para mejorar el comportamiento de los agentes en futuras interacciones.

Convertir la retroalimentación de los expertos en mejoras del sistema

La retroalimentación humana puede hacer más que corregir una sola respuesta. Con Agent Bricks, los equipos pueden usar la retroalimentación para mejorar el sistema de agentes en general, lo que incluye:

Estrategias de recuperación
Lógica de prompts
Selección de herramientas
Cómo los agentes recuperan y utilizan la información de las bases de datos vectoriales

En un estudio de caso sobre el Agent Bricks Knowledge Assistant, la capacidad de un agente de Q&A para seguir instrucciones de expertos mejoró de aproximadamente el 12% al 80% con solo 32 elementos de retroalimentación humana.

Hacer que cada interacción esté gobernada y sea trazable

Databricks también trata cada interacción como un registro gobernado y trazable. Las trazas de extremo a extremo capturan cómo se generaron las respuestas, mientras que Unity Catalog proporciona la capa de gobernanza necesaria para gestionar los datos sensibles y el comportamiento de los agentes.

Esto ofrece a los equipos una visibilidad centralizada de:

Control de acceso
Linaje a nivel de columna desde las tablas de origen, pasando por las llamadas a herramientas de los agentes, hasta los resultados finales
Registros de auditoría que respaldan el escrutinio normativo
De dónde provienen los datos
Cómo se comportaron los modelos
Quién tiene acceso a qué

Integrar HITL en el flujo de trabajo de producción

Sin visibilidad, los equipos no pueden saber si la retroalimentación humana realmente está mejorando el sistema. En lugar de tratar la supervisión como un proceso manual desconectado, Databricks ayuda a que HITL forme parte del propio sistema, para que las organizaciones puedan mejorar los modelos, mantener el cumplimiento normativo y confiar en los sistemas de IA en producción.

Preguntas frecuentes

¿Cuál es la diferencia entre human in the loop y human on the loop?

Human in the loop (HITL) significa que la IA se detiene y espera a que una persona revise o apruebe una decisión antes de actuar. Human on the loop (HOTL) significa que la IA actúa por su cuenta mientras una persona supervisa el sistema e interviene solo cuando algo parece incorrecto.

En resumen, HITL ofrece un control más estricto. HOTL está diseñado para escalar.

¿Cuál es un ejemplo de human in the loop?

Un radiólogo que revisa la detección de tumores de un sistema de IA antes de confirmar un diagnóstico es un ejemplo clásico de HITL.

En la IA empresarial, otro ejemplo común es un agente de IA que se detiene antes de enviar un correo electrónico externo, actualizar un registro de producción o activar un flujo de trabajo para que una persona pueda aprobar la acción primero.

¿Es human in the loop lo mismo que RLHF?

No. HITL es un concepto más amplio. Describe sistemas en los que las personas ayudan a definir cómo se comporta la IA.

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una técnica específica dentro de esa categoría más amplia. En RLHF, las personas clasifican o califican las respuestas del modelo durante el entrenamiento para ayudar con el ajuste fino del modelo.

Cada sistema de RLHF es una forma de HITL, pero HITL también incluye aspectos como el etiquetado de datos, la revisión de resultados y la aprobación de las acciones de los agentes.

¿Cuándo se debe utilizar human in the loop?

HITL es más útil cuando las decisiones son de gran importancia, cuando los errores conllevan consecuencias reales o cuando los sistemas de IA se enfrentan a situaciones para las que no fueron entrenados.

También es importante en sectores regulados donde las organizaciones necesitan una supervisión humana documentada.

Pero HITL no siempre es la opción adecuada. Para tareas rápidas, de bajo riesgo o de un volumen extremadamente alto, los sistemas totalmente automatizados pueden tener más sentido.

¿Cómo se aplica human in the loop a los agentes de IA?

Los agentes de IA aumentan el nivel de riesgo porque pueden realizar acciones reales dentro de los sistemas empresariales, como enviar mensajes, actualizar bases de datos o activar flujos de trabajo de forma automática.

Por eso, muchos agentes están diseñados para detenerse antes de realizar acciones de mayor impacto y solicitar primero la aprobación humana.

A medida que los agentes de IA pasan de las demostraciones a entornos de producción reales, las rutas de escalabilidad claras y una supervisión significativa se están convirtiendo rápidamente en una práctica estándar. Databricks Agent Bricks incluye Agent Learning from Human Feedback (ALHF) para ayudar a las organizaciones a crear bucles de retroalimentación escalables para agentes y aplicaciones de IA.

Comience a utilizar una IA gobernada y alineada con los humanos en Databricks

HITL ayuda a los equipos a mantener la IA precisa, confiable y responsable a medida que los sistemas pasan de las demostraciones a entornos de producción reales. Funciona mejor cuando la retroalimentación humana, la gobernanza y la evaluación residen en la misma plataforma, en lugar de en herramientas y flujos de trabajo desconectados.

Vea cómo Agent Bricks utiliza la retroalimentación humana y la evaluación continua para crear agentes de IA de alta calidad con los datos de su empresa.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs