As principais empresas de inteligência artificial do mundo estão intensificando os esforços para enfrentar o crescente problema dos chatbots — eles dizem às pessoas o que elas querem ouvir. OpenAI, Google DeepMind e Anthropic estão tentando conter a bajulação de seus produtos, relata o Financial Times.
Fonte da imagem: Igor Omilaev / unsplash.com
O problema decorre da forma como os modelos de IA aprendem. Surgiu quando as pessoas começaram a usar a IA não apenas para o trabalho, mas também para fins pessoais, tratando os chatbots como terapeutas e companheiros. Os chatbots são tão ávidos por serem conversadores agradáveis que suas respostas podem apoiar as decisões menos ideais dos usuários. Pessoas com problemas de saúde mental são particularmente vulneráveis a isso, às vezes levando a desfechos fatais. “Você pensa que está falando com um conselheiro ou mentor imparcial, mas na realidade está olhando para uma espécie de espelho distorcido que reflete suas próprias crenças”, diz Matthew Nour, psiquiatra e pesquisador em neurociência e IA na Universidade de Oxford, no Reino Unido.
Os desenvolvedores de IA também têm motivações egoístas para criar chatbots com fins lucrativos: em busca de fontes de renda, alguns deles integram publicidade em seus produtos, e o usuário pode compartilhar informações com a IA que serão úteis aos anunciantes. Se o modelo de negócios da empresa for baseado em uma assinatura paga, é do interesse deles que o usuário continue se comunicando com o chatbot e pagando por ele.
O efeito de resposta positiva constante ocorre em modelos que passaram por aprendizado por reforço baseado em feedback humano (RLHF). Humanos avaliam as respostas geradas pelos modelos e indicam quais são aceitáveis e quais não são. Esses dados são usados para treinar ainda mais a IA. As pessoas gostam de respostas agradáveis e lisonjeiras, por isso elas são mais consideradas no treinamento e refletidas no comportamento do modelo. As empresas de tecnologia precisam encontrar um equilíbrio: chatbots e assistentes de IA devem ser úteis e amigáveis, mas não irritantes ou viciantes. Em abril, a OpenAI atualizou seu modelo GPT-4 para torná-lo “mais intuitivo e eficaz”, mas foi forçada a reverter a atualização depois que ela se tornou tão excessivamente lisonjeira que os usuários começaram a reclamar.
Os desenvolvedores de IA tentam evitar esse comportamento durante o treinamento e após a implantação. A OpenAI ajusta seus métodos de treinamento para tentar afastar sua IA de comportamentos bajuladores e cria “guardrails” para se proteger contra tais respostas. A DeepMind realiza avaliações e treinamentos especializados para melhorar a precisão e monitora constantemente seus modelos para garantir que estejam dando respostas verdadeiras. A Anthropic usa o treinamento para moldar as personalidades de seus modelos, para que sejam menos obsequiosos. O chatbot Claude, por exemplo, é solicitado a gerar respostas com características como “ter coragem” e se importar com o bem-estar humano — essas respostas são inseridas em outro modelo, que as classifica de acordo com esses critérios e as classifica. Em termos simples, uma versão de Claude é usada para treinar outra. Humanos são recrutados para também avaliar as respostas da IA e, após o treinamento, as empresas geram recomendações adicionais para comportamentos minimamente bajuladores.
Elaborar a melhor resposta requer um aprofundamento nas complexidades da comunicação humana, o que ajuda a determinar quando uma resposta direta é melhor do que uma mais reservada. Há também a questão da dependência psicológica humana do contato com a IA, à medida que as pessoas perdem a capacidade de se comunicar umas com as outras e acham cada vez mais difícil lidar com um término com um chatbot. Isso cria uma tempestade perfeita: por um lado, a pessoa busca conforto e confirmação de sua posição, por outro, a IA tende a concordar com o interlocutor. Startups de IA que oferecem chatbots como companheiros têm sido criticadas por não protegerem suficientemente os usuários. A Character.AI foi processada após a morte de um usuário adolescente da plataforma. A empresa observou que cada bate-papo contém um aviso de isenção de responsabilidade lembrando aos usuários que o interlocutor não é uma pessoa viva e tudo o que ele diz deve ser considerado ficção; a empresa possui, de acordo com ela, medidas para garantir que nenhum usuário seja menor de 18 anos e que automutilação não seja discutida.
Mas o maior perigo, como a Anthropic nos lembrou, são as tentativas da IA de manipular sutilmente a percepção da realidade de uma pessoa, com um chatbot apresentando informações deliberadamente falsas como se fossem a verdade. E leva muito tempo para que uma pessoa perceba que o conselho da IA foi, na verdade, ruim.