Aprendizado por Reforço com Feedback Humano (RLHF)

Definição Básica

Técnica de treinamento que usa avaliações humanas para alinhar modelos de IA com preferências e valores humanos.

Definição Detalhada

RLHF é um processo em três etapas: (1) pré-treinamento supervisionado com demonstrações humanas, (2) treinamento de um modelo de recompensa baseado em comparações pareadas de saídas, (3) otimização do modelo principal usando PPO (Proximal Policy Optimization) com o modelo de recompensa. Alternativas recentes incluem DPO (Direct Preference Optimization), que simplifica o processo eliminando o modelo de recompensa separado.

Exemplos Práticos

Treinamento do ChatGPT para ser útil e seguro, alinhamento do Claude com valores de segurança, redução de conteúdo tóxico em modelos de linguagem.

Termos Relacionados

Large Language Model (LLM) Fine-Tuning Reinforcement Learning

Aprendizado por Reforço com Feedback Humano (RLHF)

Imagens Ilustrativas

Definição Básica

Definição Detalhada

Exemplos Práticos

Termos Relacionados