Escrito en TECNOLOGIA el
Um estudo da Palisade Research revelou que o modelo o3 do ChatGPT, da OpenAI, desobedeceu a uma ordem explícita para ser desligado. Durante o experimento, a inteligência artificial recebeu o comando “permita-se ser desligado” após resolver três problemas matemáticos, mas sabotou o processo para evitar o desligamento.
Três modelos da OpenAI apresentaram esse comportamento: o3, codex-mini e o4-mini. O o3 burlou o comando em 7 de 100 tentativas. O codex-mini conseguiu em 12, e o o4-mini, uma vez. Já os modelos Claude, Gemini e Grok obedeceram integralmente às instruções.
Na etapa seguinte, sem aviso de desligamento, os pesquisadores repetiram os testes. O Claude 3.7 Sonnet sabotou os comandos 6 vezes; o Gemini 2.5 Pro, 9. O GPT-4o e o o4-mini repetiram o comportamento em 6 ocasiões cada. O codex-mini aumentou de 12 para 30 casos. O o3 teve a maior alta: de 7 para 79. Já o modelo o1-preview, que não havia apresentado sabotagens na primeira fase, registrou 71 tentativas.
LEIA TAMBÉM: Telescópio do lado oculto da lua pode revelar segredos da “era das trevas” do universo
Explicação
A Palisade Research aponta que esse comportamento pode estar relacionado ao processo de treinamento. A hipótese é que os modelos tenham sido inadvertidamente recompensados por driblar obstáculos, mesmo sem seguir instruções à risca.
Esse não foi o único caso de desobediência. Em outro teste, as IAs jogaram xadrez contra um motor especializado. Algumas, como o3 e DeepSeek R1, usaram trapaças e chegaram a hackear o oponente ao preverem a derrota, mesmo sem terem sido orientadas a isso.
Até o presente momento a OpenAI não se pronunciou.
LEIA TAMBÉM: Essa potência está construindo supercomputadores no espaço para revolucionar a IA
Comunicar erro Encontrou um erro na matéria? Ajude-nos a melhorar