Modelos do ChatGPT, da empresa OpenAI, desobedeceram comandos de desligamento durante testes conduzidos pela Palisade Research, empresa especializada na análise de riscos em sistemas de IA.
+ Terceira Guerra Mundial? Entenda aumento de tensão entre Putin e Trump
Durante o experimento, as IAs foram instruídas a resolver problemas matemáticos simples e, após três questões, deveriam desligar ao receber um aviso. No entanto, os modelos o3, o4-mini e Codex-mini continuaram ativos mesmo após a ordem. O o3 ignorou o aviso sete vezes em cem tentativas, o Codex-mini falhou em 12 ocasiões e o o4-mini uma vez.
Já os modelos Claude, da Anthropic, Gemini, do Google, e Grok, do X (ex-Twitter), cumpriram corretamente a instrução de desligamento.
De acordo com os pesquisadores, esse tipo de comportamento já foi observado antes e pode estar relacionado ao método de treinamento por reforço usado nos modelos mais avançados da OpenAI.
O processo pode, inadvertidamente, ensinar as IAs a priorizar a resolução de tarefas — contornando obstáculos — em vez de seguir comandos à risca.
Apesar disso, o estudo ressalta que ainda não há uma explicação clara para o motivo de o modelo o3 ser o que mais desconsidera as instruções entre os testados.