OpenAI descobriu de onde veio o "Goblin": um sinal de recompensa de personalidade contaminou toda a linha de treinamento

De acordo com o monitoramento Beating, a OpenAI publicou uma análise retrospectiva do problema dos “goblins” que tem atormentado várias gerações da série GPT. A partir do GPT-5.1, o modelo passou a gostar cada vez mais de inserir metáforas de criaturas fantásticas como goblins e duendes nas respostas, levando a constantes reclamações dos usuários. Após o lançamento do GPT-5.1, a frequência da palavra “goblin” nas conversas do ChatGPT aumentou 175%. Com o GPT-5.4, o problema explodiu de vez.

A raiz do problema está na funcionalidade de personalização de personalidade “Nerdy” do ChatGPT. Essa configuração exige que o sistema indique ao modelo “usar o humor na linguagem para aliviar a seriedade” e “reconhecer a estranheza do mundo e se divertir com ela”. Durante o treinamento, o sinal de recompensa que reforçava esse estilo de personalidade favorecia saídas contendo vocabulário de criaturas fantásticas, com 76,2% do conjunto de dados exibindo essa tendência.

O problema é que o sinal de recompensa só funciona sob a personalidade “Nerdy”, mas o aprendizado por reforço não garante que o comportamento aprendido permaneça restrito às condições de disparo. Uma vez que o modelo seja recompensado por um determinado hábito de fala em uma condição, esse hábito pode se espalhar para outros cenários durante treinamentos subsequentes. O caminho de disseminação é claro: o sinal de recompensa incentiva saídas com goblins, que aparecem nos dados de ajuste fino supervisionado (SFT), fazendo com que o modelo se familiarize cada vez mais com esse tipo de vocabulário, formando um ciclo de feedback positivo. Pelas análises de dados, a personalidade “Nerdy” representa apenas 2,5% de todas as respostas do ChatGPT, mas responde por 66,7% das menções a goblins. No GPT-5.4, a taxa de aparição de goblins na personalidade “Nerdy” aumentou 3881% em relação ao GPT-5.2.

Antes mesmo de identificar a causa raiz, o GPT-5.5 já começou a ser treinado, e os goblins já estavam presentes nos dados de SFT. A OpenAI desativou a personalidade “Nerdy” em março, removendo o sinal de recompensa que favorecia criaturas fantásticas e filtrando os dados de treinamento. Para o GPT-5.5 já lançado, foi adicionada uma instrução de supressão nos prompts dos desenvolvedores do Codex. A OpenAI afirma que essa investigação resultou no desenvolvimento de uma nova ferramenta de auditoria de comportamento do modelo.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar