Aprendizado por Reforço com Feedback Humano (RLHF)
Atualizado em: 22/02/2026 08:56Imagens Ilustrativas
Definição Básica
Técnica de treinamento que usa avaliações humanas para alinhar modelos de IA com preferências e valores humanos.
Definição Detalhada
RLHF é um processo em três etapas: (1) pré-treinamento supervisionado com demonstrações humanas, (2) treinamento de um modelo de recompensa baseado em comparações pareadas de saídas, (3) otimização do modelo principal usando PPO (Proximal Policy Optimization) com o modelo de recompensa. Alternativas recentes incluem DPO (Direct Preference Optimization), que simplifica o processo eliminando o modelo de recompensa separado.
Exemplos Práticos
Treinamento do ChatGPT para ser útil e seguro, alinhamento do Claude com valores de segurança, redução de conteúdo tóxico em modelos de linguagem.
Termos Relacionados
Criado em: 22/02/2026 08:56
| Última atualização: 22/02/2026 08:56