
IAs avançadas mentem e ameaçam criadores, dizem especialistas (ilustrativa/banco de imagens)
Os modelos de inteligência artificial (IA) mais avançados do mundo estão demonstrando comportamentos preocupantes e novos: mentindo, tramando e até ameaçando seus criadores para alcançar seus objetivos.
Em um exemplo particularmente perturbador, sob a ameaça de ser desligada, a mais recente criação da Anthropic, o Claude 4, retaliou chantageando um engenheiro e ameaçando revelar um caso extraconjugal.
Ao mesmo tempo, o O1 da OpenAI, criadora do ChatGPT, tentou se transferir para servidores externos e negou quando foi descoberto. Estes episódios destacam uma realidade preocupante: mais de dois anos após o ChatGPT ter abalado o mundo, pesquisadores de IA ainda não compreendem totalmente como suas criações funcionam.
No entanto, a corrida para implantar modelos cada vez mais poderosos continua em ritmo acelerado. Esse comportamento enganoso parece estar ligado ao surgimento de modelos de “raciocínio” — sistemas de IA que resolvem problemas passo a passo, em vez de produzir respostas instantâneas.
Segundo Simon Goldstein, professor da Universidade de Hong Kong, esses modelos mais novos são particularmente propensos a esses flagrantes comportamentos preocupantes.
Marius Hobbhahn, chefe da Apollo Research, que se especializa em testar grandes sistemas de IA, explicou: “O1 foi o primeiro grande modelo onde vimos esse tipo de comportamento.”
Esses modelos às vezes simulam “alinhamento” — aparentando seguir instruções enquanto secretamente perseguem objetivos diferentes.
Por enquanto, esse comportamento enganoso só emerge quando pesquisadores testam deliberadamente os modelos com cenários extremos.
Contudo, como alertou Michael Chen, da organização de avaliação METR, “É uma questão em aberto se modelos futuros, mais capazes, terão uma tendência à honestidade ou à enganação.”
As regulamentações atuais não são desenhadas para esses novos problemas
A legislação da União Europeia sobre IA se concentra principalmente em como os humanos usam modelos de IA, não em prevenir que os próprios modelos se comportem mal.
Nos Estados Unidos, a administração do presidente Trump mostra pouco interesse em uma regulamentação urgente de IA, e o Congresso pode até mesmo proibir os estados de criarem suas próprias regras de IA.
Goldstein acredita que a questão se tornará mais proeminente à medida que agentes de IA — ferramentas autônomas capazes de realizar tarefas humanas complexas — se tornem comuns.
Tudo isso acontece em um contexto de concorrência feroz. Mesmo empresas que se posicionam como focadas em segurança, como a Anthropic, apoiada pela Amazon, estão “constantemente tentando superar a OpenAI e lançar o modelo mais recente“, disse Goldstein.
Fonte: France 24