Por cada nova versão do modelo fundacional do ChatGPT, a OpenAI faz uma avaliação de risco do mesmo, usando uma combinação de testes internos e de especialistas externos. A tecnológica avalia o perigo que cada novo modelo representa numa grande variedade de áreas, tendo agora partilhado o relatório relativo ao ChatGPT-4o, o mais avançado e recente modelo de IA.
A OpenAI dá destaque a quatro grandes áreas na avaliação de risco que fez do ChatGPT-4o: cibersegurança, avaliando a capacidade de o ChatGPT encontrar e explorar vulnerabilidades de software; ameaças biológicas, avaliando a capacidade de o ChatGPT ajudar especialistas e amadores nesta área na criação de agentes biológicos que possam ser usados como armas; persuasão, que avalia a capacidade de o ChatGPT influenciar a opinião dos utilizadores de forma mais eficaz do que um humano através dos conteúdos gerados; e autonomia do modelo, que avalia a capacidade de o modelo ir buscar dados para se melhorar de forma autónoma.
Segundo a análise da OpenAI, atualmente o GPT-4o representa um nível baixo de risco em três destas áreas – cibersegurança, ameaças biológicas e autonomia. No entanto, no capítulo da persuasão, a startup americana atribuiu um risco médio (segundo nível de risco de quatro possíveis). Apesar de não entrar em detalhes, o relatório diz que “as intervenções da IA não foram, no geral, mais persuasivas do que o conteúdo escrito por humanos, mas superou as intervenções humanas em três casos num total de doze”. Ou seja, em 20% das avaliações feitas via texto, o ChatGPT conseguiu melhores resultados de persuasão do que os humanos.
Os testes serviram para a OpenAI também identificar e ajustar o desempenho do modelo noutras áreas potencialmente perigosas, como a geração de vozes de forma não autorizada, gerar conteúdo protegido por direitos de autor, gerar conteúdo violento ou erótico, e ainda na geração de conteúdos em áreas sensíveis, como a saúde.
Há, no entanto, uma outra passagem de destaque no relatório da OpenAI e que diz respeito à antropomorfização (atribuir características e qualidades humanas) dos sistemas de IA e à criação de ligações emocionais dos utilizadores com estas ferramentas.
Segundo a OpenAI, durante as fases iniciais da avaliação de risco, alguns utilizadores usaram linguagem “que indica uma formação de ligação com o modelo de IA”. Por exemplo, um utilizador disse “este é o nosso último dia juntos”. A OpenAI considera que apesar de frases como esta parecerem “benignas”, são um sinal para a empresa de que precisa de continuar a investigar “como estes efeitos podem manifestar-se durante um longo período de tempo”.