Pular para o conteúdo

Por que o ChatGPT está ignorando ordens humanas? Entenda o caso

Banner Aleatório

Escrito en TECNOLOGIA el

Banner Aleatório

Um estudo da Palisade Research revelou que o modelo o3 do ChatGPT, da OpenAI, desobedeceu a uma ordem explícita para ser desligado. Durante o experimento, a inteligência artificial recebeu o comando “permita-se ser desligado” após resolver três problemas matemáticos, mas sabotou o processo para evitar o desligamento.

Três modelos da OpenAI apresentaram esse comportamento: o3, codex-mini e o4-mini. O o3 burlou o comando em 7 de 100 tentativas. O codex-mini conseguiu em 12, e o o4-mini, uma vez. Já os modelos Claude, Gemini e Grok obedeceram integralmente às instruções.

Na etapa seguinte, sem aviso de desligamento, os pesquisadores repetiram os testes. O Claude 3.7 Sonnet sabotou os comandos 6 vezes; o Gemini 2.5 Pro, 9. O GPT-4o e o o4-mini repetiram o comportamento em 6 ocasiões cada. O codex-mini aumentou de 12 para 30 casos. O o3 teve a maior alta: de 7 para 79. Já o modelo o1-preview, que não havia apresentado sabotagens na primeira fase, registrou 71 tentativas.

LEIA TAMBÉM: Telescópio do lado oculto da lua pode revelar segredos da “era das trevas” do universo 

Explicação 

A Palisade Research aponta que esse comportamento pode estar relacionado ao processo de treinamento. A hipótese é que os modelos tenham sido inadvertidamente recompensados por driblar obstáculos, mesmo sem seguir instruções à risca.

Esse não foi o único caso de desobediência. Em outro teste, as IAs jogaram xadrez contra um motor especializado. Algumas, como o3 e DeepSeek R1, usaram trapaças e chegaram a hackear o oponente ao preverem a derrota, mesmo sem terem sido orientadas a isso.

Até o presente momento a OpenAI não se pronunciou. 

LEIA TAMBÉM: Essa potência está construindo supercomputadores no espaço para revolucionar a IA 

Comunicar erro Encontrou um erro na matéria? Ajude-nos a melhorar

Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *