RLHF é um processo em três etapas: (1) pré-treinamento supervisionado com demonstrações humanas, (2) treinamento de um modelo de recompensa baseado em comparações pareadas de saídas, (3) otimização do modelo principal usando PPO (Proximal Policy Optimization) com o modelo de recompensa. Alternativas recentes incluem DPO (Direct Preference Optimization), que simplifica o processo eliminando o modelo de recompensa separado.