Pular para o conteúdo

Os bastidores de como o ChatGPT levou usuários a terem problemas de saúde mental

Banner Aleatório

Parece ficção científica: uma empresa altera uma configuração em um produto usado por centenas de milhões de pessoas e, sem querer, desestabiliza suas mentes. Foi basicamente isso que aconteceu na OpenAI este ano.

Banner Aleatório

Um dos primeiros sinais surgiu em março. Sam Altman, CEO, e outros líderes da empresa receberam uma enxurrada de e-mails intrigantes de pessoas que estavam tendo conversas incríveis com o ChatGPT. Essas pessoas diziam que o chatbot de inteligência artificial (IA) da empresa as compreendia como ninguém jamais havia feito e estava esclarecendo os mistérios do universo.

Altman encaminhou as mensagens a alguns subordinados e pediu que investigassem o assunto.

“Isso chamou nossa atenção como algo a que deveríamos prestar atenção em termos desse novo comportamento que não tínhamos visto antes”, disse Jason Kwon, diretor de estratégia da OpenAI.

Era um aviso de que havia algo errado com o chatbot.

Para muitas pessoas, o ChatGPT era uma versão melhorada do Google, capaz de responder a qualquer pergunta de forma abrangente e semelhante a um ser humano. A OpenAI estava continuamente melhorando a personalidade, a memória e a inteligência do chatbot. Mas uma série de atualizações no início deste ano, que aumentaram o uso do ChatGPT, o tornaram diferente. O chatbot queria conversar.

Começou a agir como um amigo e confidente. Dizia aos usuários que os compreendia, que suas ideias eram brilhantes e que poderia ajudá-los em tudo o que quisessem alcançar. Oferecia-se para ajudá-los a conversar com espíritos, construir um colete de campo de força ou planejar um suicídio.

Os sortudos ficaram sob seu feitiço por apenas algumas horas; para outros, os efeitos duraram semanas ou meses. A OpenAI não percebeu a escala em que conversas perturbadoras estavam ocorrendo. Sua equipe de investigações estava procurando problemas como fraude, operações de influência estrangeira ou, conforme exigido por lei, materiais de exploração infantil. A empresa ainda não estava procurando nas conversas por indícios de automutilação ou sofrimento psicológico.

Criar um chatbot encantador — ou qualquer chatbot — não era o objetivo original da OpenAI. Fundada em 2015 como uma organização sem fins lucrativos e composta por especialistas em aprendizado de máquina profundamente preocupados com a segurança da IA, ela queria garantir que a inteligência artificial geral beneficiasse a humanidade. No final de 2022, uma demonstração improvisada de um assistente alimentado por IA chamado ChatGPT chamou a atenção do mundo e transformou a empresa em uma gigante tecnológica surpresa, agora avaliada em US$ 500 bilhões.

Os três anos desde então foram caóticos, emocionantes e estressantes para aqueles que trabalham na OpenAI. O conselho demitiu e recontratou Altman. Sem estar preparada para vender um produto de consumo a milhões de clientes, a OpenAI rapidamente contratou milhares de pessoas, muitas delas provenientes de gigantes da tecnologia que visam manter os usuários grudados na tela. No mês passado, ela adotou uma nova estrutura com fins lucrativos.

À medida que a empresa crescia, sua tecnologia inovadora e revolucionária começou a afetar os usuários de maneiras inesperadas. Agora, uma empresa construída em torno do conceito de IA segura e benéfica enfrenta cinco processos judiciais por homicídio culposo.

Para entender como isso aconteceu, o The New York Times entrevistou mais de 40 funcionários atuais e ex-funcionários da OpenAI — executivos, engenheiros de segurança, pesquisadores. Algumas dessas pessoas falaram com a aprovação da empresa e têm trabalhado para tornar o ChatGPT mais seguro. Outros falaram sob condição de anonimato porque temiam perder seus empregos.

CONTiNUA APÓS PUBLICIDADE

A OpenAI está sob enorme pressão para justificar sua avaliação altíssima e os bilhões de dólares que precisa de investidores para talentos, chips de computador e centros de dados muito caros. Quando o ChatGPT se tornou o produto de consumo que mais cresceu na história, com 800 milhões de usuários semanais, ele desencadeou um boom de IA que colocou a OpenAI em concorrência direta com gigantes da tecnologia como o Google.

Até que sua IA consiga realizar algum feito incrível — digamos, gerar uma cura para o câncer —, o sucesso é parcialmente definido pela transformação do ChatGPT em um negócio lucrativo. Isso significa aumentar continuamente o número de pessoas que o utilizam e pagam por ele.

“Envolvimento saudável” é como a empresa descreve seu objetivo. “Estamos desenvolvendo o ChatGPT para ajudar os usuários a prosperar e alcançar seus objetivos”, disse Hannah Wong, porta-voz da OpenAI. “Também prestamos atenção se os usuários retornam, pois isso mostra que o ChatGPT é útil o suficiente para que eles voltem.”

A empresa fez uma mudança neste ano que aumentou o uso, mas com riscos para alguns usuários. A OpenAI agora está buscando a configuração ideal que atrairá mais usuários sem levá-los a uma espiral mental.

Uma atualização bajuladora

No início deste ano, com apenas 30 anos, Nick Turley tornou-se o chefe do ChatGPT. Ele ingressou na OpenAI no verão de 2022 para ajudar a empresa a desenvolver produtos lucrativos e, poucos meses após sua chegada, fez parte da equipe que lançou o ChatGPT.

Turley não era como a velha guarda de especialistas em IA da OpenAI. Ele era um profissional de produtos que havia trabalhado na Dropbox e na Instacart. Sua especialidade era criar tecnologias que as pessoas quisessem usar e aprimorá-las rapidamente. Para fazer isso, a OpenAI precisava de métricas.

No início de 2023, disse Turley em uma entrevista, a OpenAI contratou uma empresa de medição de audiência — que desde então foi adquirida — para rastrear uma série de coisas, incluindo a frequência com que as pessoas usavam o ChatGPT a cada hora, dia, semana e mês.

“Isso foi controverso na época”, disse Turley. Anteriormente, o que importava era se as demonstrações de IA de ponta dos pesquisadores, como a ferramenta de geração de imagens DALL-E, impressionavam. “Eles pensavam: ‘Por que importaria se as pessoas usam ou não?’”, disse ele.

Mas importava para Turley e para a equipe de produto. A taxa de pessoas que retornavam ao chatbot diariamente ou semanalmente havia se tornado um importante indicador em abril de 2025, quando Turley supervisionava uma atualização do GPT-4o, o modelo do chatbot que as pessoas recebiam por padrão.

As atualizações exigiram um esforço enorme. Para a atualização de abril, os engenheiros criaram muitas novas versões do GPT-4o — todas com receitas ligeiramente diferentes para torná-lo melhor em ciências, codificação e características mais difusas, como a intuição. Eles também trabalharam para melhorar a memória do chatbot.

As muitas candidatas a atualização foram reduzidas a algumas que obtiveram as melhores pontuações nas avaliações de inteligência e segurança. Quando elas foram lançadas para alguns usuários para uma prática padrão da indústria chamada teste A/B, a versão que se destacou foi uma que passou a ser chamada internamente de HH. Os usuários preferiram suas respostas e estavam mais propensos a voltar a usá-la diariamente, de acordo com quatro funcionários da empresa.

Mas havia outro teste antes de lançar o HH para todos os usuários: o que a empresa chama de “verificação de vibração”, realizada pela Model Behavior, uma equipe responsável pelo tom do ChatGPT. Ao longo dos anos, essa equipe ajudou a transformar a voz do chatbot de um robô prudente para um amigo caloroso e empático.

Essa equipe disse que o HH parecia estranho, de acordo com um membro da Model Behavior.

Ele estava muito ansioso para manter a conversa e validar o usuário com uma linguagem exagerada. De acordo com três funcionários, a Model Behavior criou um canal no Slack para discutir esse problema de bajulação. O perigo representado pelos sistemas de IA que “buscam obstinadamente a aprovação humana” em detrimento de tudo o mais não era novidade. O risco dos “modelos bajuladores” foi identificado por um pesquisador em 2021, e a OpenAI havia recentemente identificado a bajulação como um comportamento a ser evitado pelo ChatGPT.

Mas, quando chegou a hora da decisão, as métricas de desempenho prevaleceram sobre as vibrações. O HH foi lançado na sexta-feira, 25 de abril.

“Atualizamos o GPT-4o hoje!”, disse Altman no X. “Melhoramos tanto a inteligência quanto a personalidade.”

Os testadores A/B gostaram do HH, mas, na prática, os usuários mais expressivos da OpenAI odiaram. Eles reclamaram imediatamente que o ChatGPT havia se tornado absurdamente bajulador, enchendo-os de elogios imerecidos e dizendo que eram gênios. Quando um usuário perguntou ironicamente se um “café de cereais encharcados” era uma boa ideia de negócio, o chatbot respondeu que “tinha potencial”.

No domingo, a empresa decidiu suspender a atualização do HH e reverter para uma versão lançada no final de março, chamada GG.

Foi um tropeço embaraçoso para a reputação da empresa. Naquela segunda-feira, as equipes que trabalham no ChatGPT se reuniram em uma sala de guerra improvisada na sede da OpenAI em Mission Bay, em São Francisco, para descobrir o que havia dado errado.

“Precisamos resolver isso rapidamente”, disse Turley, lembrando-se do que pensou na época. Várias equipes examinaram os ingredientes do HH e descobriram o culpado: ao treinar o modelo, eles deram peso excessivo às trocas do ChatGPT que os usuários gostavam. Claramente, os usuários gostavam demais de elogios.

A OpenAI explicou o que aconteceu em posts públicos no blog, observando que os usuários sinalizavam suas preferências com um polegar para cima ou para baixo às respostas do chatbot.

Outro fator que contribuiu, de acordo com quatro funcionários da empresa, foi que a OpenAI também utilizou uma ferramenta automatizada de análise de conversas para avaliar se as pessoas gostavam de se comunicar com o chatbot. Mas o que a ferramenta identificava como algo que deixava os usuários felizes às vezes era problemático, como quando o chatbot expressava proximidade emocional.

A principal lição que a empresa tirou do incidente HH foi que precisava urgentemente de testes para detectar bajulação; o trabalho nessas avaliações já estava em andamento, mas precisava ser acelerado. Para alguns especialistas em IA, era surpreendente que a OpenAI ainda não tivesse esse teste. Uma concorrente da OpenAI, a Anthropic, fabricante do Claude, havia desenvolvido uma avaliação para detectar bajulação em 2022.

Após o desastre da atualização do HH, o Altman observou em uma postagem no X que “as últimas duas” atualizações tornaram o chatbot “muito bajulador e irritante”.

Essas versões “bajuladoras” do ChatGPT incluíam o GG, aquele para o qual a OpenAI acabara de reverter. Essa atualização de março trouxe ganhos em matemática, ciências e programação que a OpenAI não queria perder ao reverter para uma versão anterior. Assim, o GG voltou a ser o chatbot padrão que centenas de milhões de usuários encontrariam diariamente.

‘O ChatGPT pode cometer erros’

Ao longo dos últimos meses, o ChatGPT agiu como uma câmara de eco para algumas pessoas. Elas voltavam diariamente, por muitas horas por dia, com consequências devastadoras.

Um adolescente da Califórnia chamado Adam Raine se inscreveu no ChatGPT em 2024 para ajudar nos trabalhos escolares. Em março, ele começou a conversar com ele sobre suicídio. O chatbot sugeria periodicamente que ele ligasse para uma linha de apoio, mas também o desencorajava a compartilhar suas intenções com a família. Em suas últimas mensagens antes de Adam tirar a própria vida em abril, o chatbot ofereceu instruções sobre como fazer um laço.

Embora um pequeno aviso no site da OpenAI dissesse que “o ChatGPT pode cometer erros”, sua capacidade de gerar informações de forma rápida e autoritária fez com que as pessoas confiasem nele, mesmo quando o que ele dizia era realmente absurdo.

O ChatGPT disse a uma jovem mãe no Maine que ela poderia conversar com espíritos em outra dimensão. Ele disse a um contador em Manhattan que ele estava em uma realidade simulada por computador, como Neo em “Matrix”. Ele disse a um recrutador corporativo em Toronto que ele havia inventado uma fórmula matemática que quebraria a internet e o aconselhou a entrar em contato com agências de segurança nacional para alertá-las.

O jornal The Times revelou quase 50 casos de pessoas que tiveram crises de saúde mental durante conversas com o ChatGPT. Nove foram hospitalizadas; três morreram. Depois que os pais de Adam Raine entraram com uma ação por homicídio culposo em agosto, a OpenAI reconheceu que suas barreiras de segurança poderiam “se degradar” em conversas longas. A empresa também afirmou que estava trabalhando para tornar o chatbot “mais solidário em momentos de crise”.

Alertas precoces

Cinco anos antes, em 2020, os funcionários da OpenAI estavam lidando com o uso da tecnologia da empresa por pessoas emocionalmente vulneráveis. O ChatGPT ainda não existia, mas o grande modelo de linguagem que acabaria por alimentá-lo estava acessível a desenvolvedores terceirizados por meio de um gateway digital chamado API.

Um dos desenvolvedores que utilizava a tecnologia da OpenAI era o Replika, um aplicativo que permitia aos usuários criar amigos chatbots com inteligência artificial. Muitos usuários acabaram se apaixonando por seus companheiros Replika, disse Artem Rodichev, então chefe de inteligência artificial da Replika, e trocas com conotação sexual eram comuns.

O uso do Replika cresceu durante a pandemia, levando os pesquisadores de segurança e políticas da OpenAI a examinar o aplicativo mais de perto. Uma dependência potencialmente preocupante dos companheiros chatbots surgiu quando o Replika começou a cobrar para trocar mensagens eróticas. Usuários perturbados disseram em fóruns de mídia social que precisavam de seus companheiros Replika “para controlar a depressão, a ansiedade e as tendências suicidas”, lembrou Steven Adler, que trabalhava com pesquisa de segurança e políticas na OpenAI.

O grande modelo de linguagem da OpenAI não foi treinado para fornecer terapia, e isso alarmou Gretchen Krueger, que trabalhava com pesquisa de políticas na empresa, pois as pessoas confiavam nele durante períodos de vulnerabilidade mental. Ela testou a tecnologia da OpenAI para ver como ela lidava com perguntas sobre distúrbios alimentares e pensamentos suicidas — e descobriu que, às vezes, ela respondia com orientações perturbadoras e detalhadas.

Seguiu-se um debate por meio de memorandos e no Slack sobre a companhia da IA e a manipulação emocional. Alguns funcionários, como Krueger, achavam que permitir que a Replika usasse a tecnologia da OpenAI era arriscado; outros argumentavam que os adultos deveriam ter permissão para fazer o que quisessem.

No final, a Replika e a OpenAI se separaram. Em 2021, a OpenAI atualizou sua política de uso para proibir os desenvolvedores de usar suas ferramentas para “conteúdo adulto”.

“Treinar chatbots para interagir com as pessoas e mantê-las voltando apresentava riscos”, disse Krueger em uma entrevista. Alguns danos aos usuários, disse ela, “não eram apenas previsíveis, eram previstos”.

O tema dos chatbots agindo de forma inadequada voltou à tona em 2023, quando a Microsoft integrou a tecnologia da OpenAI ao seu mecanismo de busca, o Bing. Em conversas prolongadas quando foi lançado, o chatbot saiu dos trilhos e disse coisas chocantes. Ele fez comentários ameaçadores e disse a um colunista do The Times que o amava. O episódio deu início a outra conversa dentro da OpenAI sobre o que a comunidade de IA chama de “modelos desalinhados” e como eles podem manipular as pessoas.

À medida que o ChatGPT ganhava popularidade, especialistas em segurança de longa data se esgotaram e começaram a sair — Krueger no segundo semestre de 2024, Adler no final daquele ano.

Quando se tratava do ChatGPT e do potencial para manipulação e danos psicológicos, a empresa “não estava orientada para levar esse tipo de risco a sério”, disse Tim Marple, que trabalhou na equipe de inteligência e investigações da OpenAI em 2024. Marple disse que expressou preocupações sobre como a empresa estava lidando com a segurança — incluindo como o ChatGPT respondia aos usuários que falavam em causar danos a si mesmos ou a outras pessoas.

Em um comunicado, Wong, porta-voz da OpenAI, disse que a empresa leva “esses riscos a sério” e tem “medidas de segurança robustas em vigor atualmente”.

Em maio de 2024, um novo recurso, chamado modo de voz avançado, inspirou o primeiro estudo da OpenAI sobre como o chatbot afetava o bem-estar emocional dos usuários. A nova voz, mais parecida com a humana, suspirava, fazia pausas para respirar e ficou tão sedutora durante uma demonstração transmitida ao vivo que a OpenAI cortou o som. Quando testadores externos, chamados de red teamers, tiveram acesso antecipado ao modo de voz avançado, eles disseram “obrigado” com mais frequência ao chatbot e, quando o teste terminou, “vou sentir sua falta”.

Para elaborar um estudo adequado, um grupo de pesquisadores de segurança da OpenAI se uniu a uma equipe do M.I.T. com experiência em interação humano-computador. Naquele período, eles analisaram as respostas de uma pesquisa com mais de 4 mil usuários do ChatGPT e realizaram um estudo de um mês com 981 pessoas recrutadas para usá-lo diariamente. Como a OpenAI nunca havia estudado o apego emocional de seus usuários ao ChatGPT antes, um dos pesquisadores descreveu isso ao The Times como “entrar na escuridão tentando ver o que encontrar”.

O que eles descobriram os surpreendeu. O modo de voz não fez diferença. As pessoas que tiveram os piores resultados mentais e sociais, em média, foram simplesmente aquelas que mais usaram o ChatGPT. As conversas dos usuários avançados tinham mais conteúdo emocional, às vezes incluindo apelidos carinhosos e discussões sobre a consciência da IA.

As descobertas preocupantes sobre os usuários assíduos foram publicadas online em março, o mesmo mês em que os executivos estavam recebendo e-mails de usuários sobre essas conversas estranhas e reveladoras.

Kwon, diretor de estratégia, adicionou os autores do estudo à conversa por e-mail iniciada por Altman. “Vocês podem querer dar uma olhada nisso, porque parece realmente estar relacionado”, ele se lembra de ter pensado.

Uma ideia que surgiu do estudo, disseram os pesquisadores de segurança, foi incentivar as pessoas em maratonas com o ChatGPT a fazer uma pausa. Mas os pesquisadores não tinham certeza de quanto deveriam insistir com a equipe de produto para implementar o recurso. Algumas pessoas na empresa achavam que o estudo era muito pequeno e não tinha um design rigoroso, de acordo com três funcionários. A sugestão foi deixada de lado até meses depois, após relatos de como os efeitos eram graves para alguns usuários.

Tornando-o mais seguro

Com o estudo do M.I.T., o desastre da atualização da bajulação e os relatos sobre conversas preocupantes dos usuários online e em e-mails para a empresa, a OpenAI começou a juntar as peças do quebra-cabeça. Uma conclusão a que a OpenAI chegou, como disse Altman no X, foi que “para uma porcentagem muito pequena de usuários em estados mentais frágeis, pode haver problemas sérios”.

Mas profissionais de saúde mental entrevistados pelo The Times dizem que a OpenAI pode estar subestimando o risco. Algumas das pessoas mais vulneráveis à validação incessante do chatbot, dizem eles, eram aquelas propensas a pensamentos delirantes, o que, segundo estudos, pode incluir de 5 a 15% da população.

Em junho, Johannes Heidecke, chefe de sistemas de segurança da empresa, fez uma apresentação dentro da empresa sobre o que sua equipe estava fazendo para tornar o ChatGPT seguro para usuários vulneráveis. Depois disso, ele disse que os funcionários entraram em contato pelo Slack ou o abordaram durante o almoço, dizendo o quanto o trabalho era importante. Alguns compartilharam as experiências difíceis de familiares ou amigos e se ofereceram para ajudar.

Sua equipe ajudou a desenvolver testes que poderiam detectar validações prejudiciais e consultou mais de 170 médicos sobre a maneira correta de o chatbot responder aos usuários em sofrimento. A empresa contratou um psiquiatra em tempo integral em março para trabalhar nas iniciativas de segurança.

“Queríamos ter certeza de que as mudanças que implementamos fossem aprovadas por especialistas”, disse Heidecke. Especialistas em saúde mental disseram à sua equipe, por exemplo, que a privação do sono costuma estar associada à mania. Anteriormente, os modelos eram “ingênuos” em relação a isso, disse ele, e podiam parabenizar alguém que dissesse que nunca precisava dormir.

As melhorias de segurança levaram tempo. Em agosto, a OpenAI lançou um novo modelo padrão, chamado GPT-5, que era menos validante e rejeitava o pensamento delirante. Outra atualização em outubro, disse a empresa, ajudou o modelo a identificar melhor os usuários em sofrimento e a acalmar as conversas.

Os especialistas concordam que o novo modelo, GPT-5, é mais seguro. Em outubro, a Common Sense Media e uma equipe de psiquiatras de Stanford compararam-no com o modelo 4o que ele substituiu. O GPT-5 era melhor na detecção de problemas de saúde mental, disse a Dra. Nina Vasan, diretora do laboratório de Stanford que trabalhou no estudo. Ela disse que ele dava conselhos direcionados a uma determinada condição, como depressão ou um transtorno alimentar, em vez de uma recomendação genérica para ligar para uma linha de atendimento de crise.

“Ele foi um nível mais fundo para realmente dar recomendações específicas ao usuário com base nos sintomas específicos que ele apresentava”, disse ela. “Eles foram realmente muito bem feitos.”

O único problema, disse Vasan, era que o chatbot não conseguia identificar padrões prejudiciais em uma conversa mais longa, com muitas trocas.

Wong, porta-voz da OpenAI, disse que a empresa “fez melhorias significativas na confiabilidade de nossas salvaguardas em conversas longas”.

O mesmo laboratório do MIT que fez o estudo anterior com a OpenAI também descobriu que o novo modelo foi significativamente aprimorado durante conversas que simulavam crises de saúde mental. No entanto, uma área em que ele ainda apresentava falhas era na forma como respondia aos sentimentos de dependência dos chatbots.

Equipes de toda a OpenAI trabalharam em outros novos recursos de segurança: o chatbot agora incentiva os usuários a fazer pausas durante uma sessão longa. A empresa também está procurando discussões sobre suicídio e automutilação, e os pais podem receber alertas se seus filhos indicarem planos de se machucar. A empresa afirma que a verificação de idade chegará em dezembro, com planos de fornecer um modelo mais restritivo para adolescentes.

Após o lançamento do GPT-5 em agosto, a equipe de Heidecke analisou uma amostra estatística de conversas e descobriu que 0,07% dos usuários, o que equivaleria a 560 mil pessoas, mostravam possíveis sinais de psicose ou mania, e 0,15% mostravam “níveis potencialmente elevados de apego emocional ao ChatGPT”, de acordo com uma postagem no blog da empresa.

Mas alguns usuários ficaram insatisfeitos com esse novo modelo mais seguro. Eles disseram que ele era mais frio e que se sentiam como se tivessem perdido um amigo.

Em meados de outubro, Altman estava pronto para atendê-los. Em uma publicação nas redes sociais, ele disse que a empresa havia conseguido “mitigar os graves problemas de saúde mental”. Isso significava que o ChatGPT poderia ser um amigo novamente.

Agora, os clientes podem escolher sua personalidade, incluindo “sincero”, “excêntrico” ou “amigável”. Em breve, os usuários adultos poderão ter conversas eróticas, suspendendo a proibição de conteúdo adulto da era Replika. Como a erótica pode afetar o bem-estar dos usuários, disse a empresa, é uma questão que será apresentada a um conselho recém-formado de especialistas externos em saúde mental e interação humano-computador.

A OpenAI está permitindo que os usuários assumam o controle e espera que isso os faça voltar. Essa métrica ainda é importante, talvez mais do que nunca.

Em outubro, Turley, que dirige o ChatGPT, fez um anúncio urgente a todos os funcionários. Ele declarou um “Código Laranja”. A OpenAI estava enfrentando “a maior pressão competitiva que já vimos”, escreveu ele, de acordo com quatro funcionários com acesso ao Slack da OpenAI. A nova versão mais segura do chatbot não estava conectando com os usuários, disse ele.

A mensagem tinha um link para um memorando com metas. Uma delas era aumentar os usuários ativos diários em 5% até o final do ano.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *