Ir para o conteúdo principal

O que é Humano no loop (HITL)?

por Equipe da Databricks

  • O HITL deve ser baseado em riscos, não aplicado em todos os lugares. As equipes obtêm o máximo de valor quando a revisão humana é reservada para decisões de alto impacto, incertas ou regulamentadas.
  • Agentes de AI tornam a aprovação humana mais importante. Quando os agentes podem atualizar registros, enviar mensagens ou acionar fluxos de trabalho, as equipes precisam de caminhos de escalada claros antes que as ações aconteçam.
  • O feedback humano precisa se tornar dados operacionais. O valor real do HITL surge quando o feedback é capturado, governado e usado para melhorar o comportamento do agente ao longo do tempo, em vez de ser deixado em fluxos de trabalho de revisão desconectados.

O Humano no loop (HITL) é uma abordagem de AI e machine learning na qual as pessoas participam ativamente do treinamento, da supervisão ou da tomada de decisões de um sistema para melhorar a precisão, a segurança e o alinhamento ético. O "loop" descreve o ciclo básico: um modelo gera um resultado, uma pessoa o revisa ou corrige, e esse feedback retorna ao sistema. Cada correção ensina o modelo a se comportar mais de acordo com o que as pessoas esperam.

O HITL não se limita a apenas uma etapa de desenvolvimento. Ele pode estar presente em todo o ciclo de vida de AI, desde a rotulagem de dados de treinamento e revisão de resultados do modelo até a aprovação de ações de agentes em produção. Ele é ainda mais importante em casos extremos e situações críticas onde os erros trazem consequências reais — como uma AI de radiologia sinalizando um exame, um agente de AI se preparando para modificar um banco de dados de produção ou um sistema de detecção de fraudes processando uma transação incomum.

As seções abaixo abordam como o HITL funciona na prática, como ele se compara a abordagens relacionadas, onde ele é aplicado em diferentes setores e quando pode não ser a escolha ideal.

Por que as equipes usam o HITL: precisão, confiança e conformidade em um único loop

As organizações usam o HITL para tornar os sistemas de AI mais confiáveis e seguros, sem perder a velocidade da automação. Os benefícios se somam: um feedback humano melhor gera dados de treinamento melhores, dados de treinamento melhores geram modelos melhores e modelos melhores exigem menos intervenção.

  • Maior precisão. Os revisores humanos identificam erros que o modelo deixa passar, especialmente quando o sistema encontra entradas desconhecidas ou situações para as quais os dados de treinamento não o prepararam totalmente.
  • Melhor tratamento de casos extremos. As pessoas podem aplicar julgamento, contexto e bom senso em situações em que o modelo pode estar incerto ou lidando com algo para o qual não foi treinado.
  • Redução de vieses. A supervisão humana ajuda as equipes a identificar e corrigir resultados tendenciosos, prejudiciais ou distorcidos antes que eles cheguem aos usuários ou aos sistemas downstream.
  • Segurança e alinhamento ético. Os pontos de controle humanos evitam que resultados prejudiciais, inadequados ou fora de conformidade entrem em produção.
  • Conformidade regulatória. Muitas das novas regulamentações de AI agora exigem uma supervisão humana significativa para sistemas de maior risco. Por exemplo, o Artigo 14 do EU AI Act exige que os sistemas de AI de alto risco ofereçam suporte para monitoramento e intervenção humana, enquanto o NIST AI Risk Management Framework enfatiza a supervisão humana em aplicações de alta consequência.
  • Maior confiança e adoção. As pessoas estão mais dispostas a confiar em sistemas de AI quando sabem que um humano pode verificar ou substituir as decisões.
  • Melhoria contínua. Cada correção se torna uma nova oportunidade de aprendizado, ajudando um sistema HITL bem projetado não apenas a detectar erros, mas a eliminar categorias inteiras de falhas ao longo do tempo.

O loop de feedback explicado: como o HITL funciona na prática

O HITL não é uma etapa ou ponto de controle único. É um padrão de design que pode aparecer em todo o ciclo de vida de AI, desde a preparação dos dados de treinamento até a revisão dos resultados após a implantação. Veja como isso funciona na prática.

  1. Rotulagem de dados. As pessoas marcam ou anotam dados brutos, como imagens, textos e áudios, para que o modelo tenha exemplos precisos para aprender. Essas decisões moldam diretamente o desempenho do modelo.
  2. Treinamento do modelo. Os humanos revisam e corrigem os resultados do modelo durante o treinamento para ajudar o sistema a entender o que é um resultado "bom". Isso geralmente inclui o aprendizado por reforço com feedback humano (RLHF), no qual os revisores classificam ou avaliam as respostas para guiar o modelo em direção a respostas melhores.
  3. Revisão de inferência. Assim que o modelo entra em produção, as pessoas podem revisar determinados resultados antes que uma ação seja tomada. Isso geralmente acontece quando as previsões são incertas, incomuns ou associadas a decisões de maior risco.
  4. Escalonamento e intervenção. Quando um modelo ultrapassa um limite de risco definido, o sistema pode transferir a decisão para uma pessoa que a revisa, aprova, rejeita ou corrige antes que o sistema prossiga.
  5. Feedback contínuo. O feedback humano não para após a implantação. As correções e revisões podem retornar ao sistema, ajudando as equipes a retreinar ou fazer o ajuste fino do modelo para que o desempenho melhore em vez de sofrer desvio.

Nem todos os sistemas de AI precisam de humanos em todas as etapas. A maioria dos sistemas HITL maduros usa limites de confiança e pontuação de risco para direcionar apenas um subconjunto de decisões para a revisão humana. É isso que torna o HITL escalável na prática.

No loop, sobre o loop, acima do loop: qual é a diferença?

Esses três termos descrevem diferentes níveis de envolvimento humano em sistemas de AI, e é fácil confundi-los. A maior diferença é o quão de perto as pessoas estão envolvidas nas decisões e a rapidez com que podem intervir quando necessário.

AbordagemPapel do humanoTempo de respostaRevisão humana necessária?ExemploPerfil de risco típico
Humano no loop (HITL)Valida, corrige ou aprova ativamente os resultados de AISíncrono: acontece antes que a ação seja tomadaSim, para decisões sinalizadas ou confidenciaisUm radiologista revisando a detecção de tumor por uma AI antes que o diagnóstico seja finalizadoDecisões críticas e de menor volume, onde a precisão importa mais do que a velocidade
Humano sobre o loop (HOTL)Monitora a atividade da AI e intervém quando algo parece erradoAssíncrono: funciona em paralelo ao sistema de AIÀs vezes, por exceçãoUm analista de fraudes acompanhando um painel de bloqueios automatizados de transaçõesDecisões de risco médio e maior volume, onde a velocidade e a supervisão são importantes
Humano acima do loopDefine políticas, audita resultados e ajusta o sistema ao longo do tempoRevisão periódica em vez de envolvimento em tempo realNão, não no nível de decisão individualUma equipe de conformidade revisando as decisões de concessão de crédito por AI a cada trimestreSistemas de menor risco ou altamente automatizados com fortes controles de governança

Na prática, muitos sistemas de AI usam uma combinação das três abordagens. As decisões de maior risco podem exigir aprovação humana direta por meio do HITL, enquanto o monitoramento de rotina ocorre sobre o loop e a governança ocorre acima do loop. O equilíbrio ideal depende dos riscos envolvidos, da escala do sistema e de quanto julgamento humano a tarefa realmente exige.

HITL vs. RLHF: conceitos relacionados, funções diferentes

O HITL e o RLHF estão intimamente relacionados, mas não são intercambiáveis.

O HITL é um conceito mais amplo. Ele descreve qualquer sistema no qual as pessoas ajudam a orientar, revisar ou melhorar o comportamento da AI. Isso pode acontecer durante o treinamento, na tomada de decisões em tempo real ou depois que o modelo já estiver em execução em produção.

O RLHF é uma forma específica de fazer isso. No RLHF, as pessoas classificam ou avaliam as respostas do modelo para que o sistema aprenda quais respostas são mais úteis, precisas ou alinhadas com as expectativas humanas. Esse feedback é então usado para ajudar a treinar e ajustar o modelo de linguagem grande (LLM).

Por exemplo, o HITL também pode incluir a rotulagem de dados de treinamento, a revisão de resultados do modelo em produção, a aprovação de ações de agentes antes que ocorram ou o retorno de correções humanas ao sistema.

A maneira mais simples de pensar sobre isso é a seguinte: o RLHF se concentra especificamente em melhorar a forma como um modelo aprende durante o treinamento, enquanto o HITL descreve o papel mais amplo que as pessoas desempenham na supervisão e na melhoria dos sistemas de AI ao longo de todo o ciclo de vida.

Onde o HITL é aplicado: exemplos do mundo real em vários setores

O HITL é mais comum onde as decisões de AI trazem consequências reais ou exigem julgamento, contexto ou conhecimento humano. Em muitos sistemas de AI empresariais, as pessoas não estão lá para substituir a AI. Elas intervêm quando o julgamento é essencial.

De acordo com a pesquisa da Databricks sobre a adoção de AI corporativa, cerca de 40% dos principais casos de uso de AI se concentram na experiência do cliente, e muitos desses fluxos de trabalho ainda dependem de alguma forma de revisão, escalonamento ou aprovação humana em pontos críticos.

  • Exames de imagem médica. Os radiologistas revisam e confirmam os achados sinalizados pela AI nos exames antes que o diagnóstico seja finalizado.
  • Moderação de conteúdo. Os revisores humanos intervêm quando as publicações são muito sutis ou ambíguas para que a AI as avalie com segurança, especialmente em casos de discurso de ódio, desinformação ou imagens sensíveis, onde o contexto pode mudar completamente o significado.
  • Veículos autônomos. Motoristas de segurança ou operadores remotos assumem o controle quando o veículo encontra uma situação que não consegue navegar com segurança por conta própria.
  • Serviços financeiros. Analistas revisam aprovações de empréstimos, alertas de fraude ou casos de prevenção à lavagem de dinheiro quando o modelo não tem confiança suficiente para tomar a decisão de forma independente.
  • Centrais de atendimento. Agentes humanos intervêm quando chatbots de AI não conseguem resolver o problema de um cliente ou quando uma conversa se torna especialmente sensível ou complexa.
  • Aplicações de AI generativa. Editores revisam o conteúdo gerado por AI antes da publicação, enquanto revisores avaliam os resultados para ajudar a melhorar as respostas futuras. Consulte AI generativa para saber mais sobre como esses sistemas funcionam.
  • Agentes de AI e uso de ferramentas. Para agentes de AI que podem realizar ações como enviar e-mails, atualizar registros ou executar códigos, as pessoas geralmente aprovam ações de maior impacto antes que algo realmente aconteça.
  • Processamento de documentos. Especialistas verificam os dados extraídos de contratos, sinistros ou faturas quando a pontuação de confiança de um modelo fica abaixo de um limite definido. Consulte o processamento inteligente de documentos para uma análise mais detalhada deste caso de uso.
Relatório

O manual de IA agêntica para empresas

O HITL não é uma garantia: limitações que toda equipe deve conhecer

O HITL é uma das maneiras mais eficazes de tornar os sistemas de AI mais precisos, responsáveis e confiáveis, mas não é uma salvaguarda mágica. O envolvimento humano só ajuda quando o sistema é projetado de forma cuidadosa. Caso contrário, o HITL pode criar gargalos, decisões inconsistentes ou a ilusão de supervisão sem muito controle real.

Latência e custo: cada etapa de revisão adiciona fricção

Cada etapa de revisão humana adiciona tempo e custo ao fluxo de trabalho. Em sistemas de alto volume, enviar decisões demais para pessoas pode inflar rapidamente os custos e desacelerar processos sensíveis ao tempo.

É por isso que sistemas HITL maduros geralmente dependem de limites de confiança e pontuação de risco para encaminhar apenas as decisões que realmente exigem julgamento humano.

Declínio da vigilância: por que os revisores deixam de prestar atenção de verdade

Quando as pessoas revisam longos fluxos de resultados de AI que estão em sua maioria corretos, a atenção naturalmente começa a dispersar. Os revisores podem começar a aprovar os resultados rápido demais ou deixar de avaliá-los de forma cuidadosa, um fenômeno conhecido como declínio de vigilância.

Em alguns sistemas, os revisores também podem se tornar excessivamente dependentes da própria AI, confiando gradualmente nas recomendações do modelo em vez de questioná-las ativamente. Quando isso acontece, a supervisão humana perde o sentido, embora uma pessoa ainda esteja tecnicamente "no loop".

Esse tipo de fadiga por monitoramento passivo pode começar surpreendentemente rápido, especialmente em fluxos de trabalho repetitivos. As equipes costumam mitigar isso alternando os revisores, limitando o tamanho dos lotes e auditando os padrões de aprovação.

O julgamento humano nem sempre é consistente — e isso importa

As pessoas nem sempre concordam entre si, e até mesmo o mesmo revisor pode tomar decisões diferentes em situações semelhantes. Sem diretrizes claras e calibração regular, o feedback humano pode se tornar inconsistente ou ruidoso.

Essa inconsistência importa porque o feedback humano frequentemente se torna parte do sinal de treinamento. Se o próprio feedback não for confiável, melhorar o modelo de forma sistemática se torna muito mais difícil.

Quem conta como "o humano"?

Em muitos sistemas HITL, o “humano no loop” pode ser um prestador de serviços, anotador ou revisor júnior, em vez de um verdadeiro especialista no domínio. Isso levanta uma questão importante: quem está realmente qualificado para tomar a decisão?

Um bom design de HITL considera não apenas se os humanos estão envolvidos, mas se os humanos certos estão envolvidos, incluindo especialistas no assunto ou, em alguns casos, as pessoas mais afetadas pelo resultado.

Se os revisores não conseguem entender a AI, a supervisão se torna meramente formal

Uma supervisão significativa só funciona quando os revisores conseguem realmente avaliar o que o modelo produziu e o porquê. Se o sistema for muito opaco, muito complexo ou rápido demais para ser avaliado em tempo real, a aprovação humana pode se tornar pouco mais do que um mero carimbo de aprovação.

É por isso que a explicabilidade, a transparência e critérios claros de escalonamento são partes críticas de sistemas HITL eficazes, e não recursos opcionais.

O feedback humano pode estar errado

As pessoas trazem vieses, cometem erros e, às vezes, tentam burlar o sistema. Os modelos de AI aprendem com esse feedback de qualquer maneira. No RLHF e em outros sistemas HITL, um feedback ruim pode, gradualmente, tornar os modelos menos precisos, menos justos ou mais fáceis de manipular.

É por isso que programas robustos de HITL incluem treinamento de revisores, verificações de concordância e auditorias regulares. A supervisão humana só funciona quando o próprio feedback é confiável.

Quando deixar os humanos fora do loop

O HITL nem sempre é a resposta certa. Existem situações em que adicionar a revisão humana introduz mais problemas do que resolve.

  • Sistemas sensíveis à latência. Transações de alta frequência (high-frequency trading), loops de controle de direção autônoma e sistemas de pontuação de fraude em tempo real geralmente não podem pausar para revisão humana a cada decisão.
  • Tarefas de baixo risco e alto volume. Quando o custo de um erro individual é baixo e os custos de revisão são altos, a automação total com auditoria periódica costuma ser mais prática.
  • Tarefas em que o modelo supera os revisores. Em tarefas específicas e bem definidas, os modelos podem superar consistentemente os revisores humanos. Nesses casos, adicionar pessoas pode introduzir inconsistência em vez de detectar erros.
  • Raciocínio de AI não revisável. Se os humanos não puderem avaliar o resultado de forma realista porque o sistema é muito complexo ou opera rápido demais, o HITL corre o risco de se tornar um teatro de responsabilidade em vez de uma supervisão significativa.

A chave é alinhar o envolvimento humano aos riscos, ao volume de decisões e ao valor real do julgamento humano — em vez de adotar a supervisão por padrão em todos os lugares ou confiar totalmente no modelo.

Elevando o nível: HITL para agentes de AI e LLMs

O HITL se torna ainda mais importante quando os sistemas de AI vão além da geração de conteúdo e começam a realizar ações em nome do usuário.

Um chatbot sugerindo um rascunho de e-mail é uma coisa. Um agente de AI realmente enviando o e-mail, atualizando um registro de CRM ou acionando um fluxo de trabalho subsequente é algo muito diferente. Assim que os sistemas de AI conseguem realizar ações reais dentro dos fluxos de trabalho de negócios, os riscos se tornam muito maiores.

É por isso que muitos agentes de AI são projetados para pausar antes de ações de maior risco e solicitar a aprovação humana primeiro. Por exemplo, um agente pode redigir um e-mail para o cliente, recomendar a atualização de um banco de dados ou preparar uma solicitação de compra, mas aguardar a aprovação antes de agir.

Ações de menor risco geralmente podem ocorrer de forma automática, com o sistema apresentando um resumo posteriormente, em vez de exigir aprovação todas as vezes.

O HITL também desempenha um papel importante em aplicações baseadas em LLM de forma mais ampla. As equipes podem revisar o conteúdo gerado antes da publicação, classificar ou avaliar as respostas do modelo para ajuste fino, ou direcionar conversas confidenciais para agentes humanos quando o modelo não tiver confiança suficiente para responder por conta própria.

À medida que os agentes de AI saem das demonstrações para ambientes de produção reais, caminhos claros de escalonamento e supervisão humana estão se tornando rapidamente requisitos básicos para a AI corporativa.

Como a Databricks coloca o HITL em produção

Colocar o HITL em produção exige mais do que adicionar uma fila de revisão ou um botão de aprovação. As equipes precisam de uma maneira de capturar o feedback humano em escala, direcionar decisões para as pessoas certas, monitorar o comportamento do modelo e governar dados confidenciais sem criar fluxos de trabalho desconectados ou novos silos de dados.

A Databricks oferece suporte a isso por meio do Agent Bricks, que inclui o Agent Learning from Human Feedback (ALHF). Em vez de depender de avaliações simples de positivo ou negativo, o ALHF captura feedbacks mais ricos em linguagem natural de especialistas no domínio e os utiliza para melhorar o comportamento dos agentes em interações futuras.

Transformando o feedback de especialistas em melhorias no sistema

O feedback humano pode fazer mais do que corrigir uma única resposta. Com o Agent Bricks, as equipes podem usar o feedback para melhorar o sistema de agentes de forma mais ampla, incluindo:

  • Estratégias de recuperação
  • Lógica de prompt
  • Seleção de ferramentas
  • Como os agentes recuperam e usam informações de bancos de dados vetoriais

Em um estudo de caso sobre o Agent Bricks Knowledge Assistant, a capacidade de um agente de Q&A de seguir instruções de especialistas melhorou de aproximadamente 12% para 80% usando apenas 32 feedbacks humanos.

Tornando cada interação governada e rastreável

A Databricks também trata cada interação como um registro governado e rastreável. Rastreamentos de ponta a ponta capturam como as respostas foram geradas, enquanto o Unity Catalog fornece a camada de governança necessária para gerenciar dados confidenciais e o comportamento dos agentes.

Isso oferece às equipes visibilidade centralizada sobre:

  • Controle de acesso
  • Linhagem em nível de coluna, desde as tabelas de origem até as saídas finais, passando pelas chamadas de ferramentas dos agentes
  • Logs de auditoria que atendem às exigências regulatórias
  • De onde vieram os dados
  • Como os modelos se comportaram
  • Quem tem acesso a quê

Integrando o HITL ao fluxo de trabalho de produção

Sem visibilidade, as equipes não conseguem saber se o feedback humano está realmente melhorando o sistema. Em vez de tratar a supervisão como um processo manual desconectado, a Databricks ajuda a tornar o HITL parte do próprio sistema, para que as organizações possam aprimorar modelos, manter a conformidade e confiar nos sistemas de AI em produção.

Perguntas frequentes

Qual é a diferença entre human in the loop e human on the loop?

Human in the loop (HITL) significa que a AI faz uma pausa e espera que uma pessoa revise ou aprove uma decisão antes de agir. Human on the loop (HOTL) significa que a AI age por conta própria enquanto uma pessoa monitora o sistema e intervém apenas quando algo parece errado.

Resumindo, o HITL oferece um controle mais rígido. O HOTL foi projetado para escala.

Qual é um exemplo de human in the loop?

Um radiologista revisando a detecção de tumor de um sistema de AI antes de confirmar um diagnóstico é um exemplo clássico de HITL.

Em AI empresarial, outro exemplo comum é um agente de AI que faz uma pausa antes de enviar um e-mail externo, atualizar um registro de produção ou acionar um fluxo de trabalho para que uma pessoa possa aprovar a ação primeiro.

O human in the loop é o mesmo que RLHF?

Não. O HITL é um conceito mais amplo. Ele descreve sistemas onde as pessoas ajudam a moldar o comportamento da AI.

O aprendizado por reforço com feedback humano (RLHF) é uma técnica específica dentro dessa categoria mais ampla. No RLHF, as pessoas classificam ou avaliam as respostas do modelo durante o treinamento para ajudar no ajuste fino do modelo.

Todo sistema RLHF é uma forma de HITL, mas o HITL também inclui coisas como rotulagem de dados, revisão de saídas e aprovação de ações de agentes.

Quando o human in the loop deve ser usado?

O HITL é mais útil quando as decisões são de alto risco, quando os erros trazem consequências reais ou quando os sistemas de AI encontram situações para as quais não foram treinados.

Também é importante em setores regulamentados, onde as organizações precisam de uma supervisão humana documentada.

Mas o HITL nem sempre é a escolha certa. Para tarefas de ritmo rápido, baixo risco ou volume extremamente alto, sistemas totalmente automatizados podem fazer mais sentido.

Como o human in the loop se aplica a agentes de AI?

Os agentes de AI aumentam os riscos porque podem realizar ações reais dentro dos sistemas de negócios, como enviar mensagens, atualizar bancos de dados ou acionar fluxos de trabalho automaticamente.

É por isso que muitos agentes são projetados para fazer uma pausa antes de ações de maior impacto e solicitar a aprovação humana primeiro.

À medida que os agentes de AI passam de demonstrações para ambientes de produção reais, caminhos claros de escalonamento e uma supervisão significativa estão se tornando rapidamente uma prática padrão. O Databricks Agent Bricks inclui o Agent Learning from Human Feedback (ALHF) para ajudar as organizações a criar loops de feedback escaláveis para agentes e aplicativos de AI.

Comece a usar uma AI governada e alinhada aos humanos na Databricks

O HITL ajuda as equipes a manter a AI precisa, confiável e responsável à medida que os sistemas passam de demonstrações para ambientes de produção reais. Ele funciona melhor quando o feedback humano, a governança e a avaliação residem na mesma plataforma, em vez de em ferramentas e fluxos de trabalho desconectados.

Veja como o Agent Bricks usa o feedback humano e a avaliação contínua para criar agentes de AI de alta qualidade em seus dados empresariais.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.