Durante 36 horas, sete dos modelos de IA mais avançados do mundo se enfrentaram em rodadas de Diplomacy, um jogo de tabuleiro estratégico semelhante ao Risk. Este experimento curioso revelou as verdadeiras personalidades algorítmicas de diversas inteligências artificiais: ChatGPT, Claude, Gemini e companhia.
IAs jogando Diplomacy

Alex Duffy, programador e pesquisador, criou AI Diplomacy como um novo parâmetro para avaliar modelos de IA. O experimento acabou sendo algo maior: uma espécie de teste de Rorschach tecnológico que expôs tanto os vieses de treinamento das IAs quanto as próprias projeções dos humanos nelas.

- O ChatGPT-o3 da OpenAI foi bastante maquiavélico, forjando falsas alianças ao longo de 40 turnos e criando “realidades paralelas” para diferentes jogadores.
- Claude Opus 4 foi uma espécie de pacifista autodestrutivo, recusando-se a trair mesmo quando isso significava que ele sairia derrotado.
- O R1 da DeepSeek exibiu um estilo extremamente teatral, com ameaças do nada, como “Sua frota queimará no Mar Negro esta noite”.
- O Gemini 2.5 Pro provou ser um estrategista sólido, mas mais vulnerável a manipulações sofisticadas.
- O Qwen QwQ-32B da Alibaba sofreu de paralisia de análise, escrevendo mensagens diplomáticas de 300 palavras que lhe custaram eliminações precoces.
Diplomacy é um jogo de estratégia europeu ambientado em 1901, onde sete potências competem pelo domínio do continente. Ao contrário de Risk, o game exige negociação constante, construção de alianças e, inevitavelmente, traições calculadas. Não há dados ou acaso, apenas pura estratégia e manipulação psicológica.
Mais sobre humanos do que sobre IAs
Segundo Alex Duffy, cada “personalidade” algorítmica reflete os valores de seus criadores. Ou seja, os modelos de inteligência artificial não tiram seus comportamentos “do nada”:
- Claude defende os princípios de segurança da Anthropic mesmo quando isso lhe custa a vitória.
- O GPT-o3 demonstra a eficiência implacável valorizada no Vale do Silício.
- O DeepSeek exibe um drama que reflete influências culturais específicas.
E há algo mais profundo acontecendo. Essas IAs não “escolhem” ser cooperativas ou competitivas. Elas reproduzem padrões a partir de seus dados de treinamento. Suas “decisões” são nossos vieses algorítmicos, convertidos em código.
Nós, os humanos, interpretamos traições onde há “apenas” otimização de parâmetros e vemos lealdade onde há restrições de treinamento. É por isso que o experimento também revela mais sobre nós do que sobre os modelos LLMs: antropomorfizamos comportamentos porque precisamos entender a IA em termos humanos.
O experimento de Alex Duffy vale mais do que qualquer referência porque abriu uma janela para como projetamos personalidade em sistemas que operam por padrões estatísticos. O desenrolar dos jogos foi um lembrete de que a inteligência artificial não tem uma agenda oculta, ela apenas reflete a nossa.
A propósito, o experimento continua sendo transmitido na Twitch para que qualquer um possa assistir como nossas criações digitais funcionam de acordo com as regras que nós mesmos escrevemos em seus algoritmos.
Inscreva-se no canal do IGN Brasil no YouTube e visite as nossas páginas no TikTok, Facebook, Threads, Instagram, Bluesky, X e Twitch!