Pesquisadores da OpenAI estão testando uma abordagem chamada “confissões”, uma técnica de treinamento que incentiva os modelos a reconhecerem e admitirem quando cometem erros ou apresentam comportamentos indesejados.

A proposta é fazer com que a própria IA consiga identificar e declarar suas falhas, em vez de simplesmente seguir adiante com respostas potencialmente incorretas. Com isso, a OpenAI busca aumentar a honestidade e a transparência dos modelos, fortalecendo a confiança dos usuários nos resultados gerados pela inteligência artificial.