Pular para o conteúdo

Estudo revela que conselhos de saúde de chatbots de IA muitas vezes são imprecisos

Banner Aleatório

Um novo estudo publicado apresentou uma visão preocupante sobre se os chatbots com Inteligência Artificial (IA), que rapidamente se tornaram uma importante fonte de informações sobre saúde, eficazes em fornecer orientações médicas ao público em geral.

Banner Aleatório

O experimento descobriu que os chatbots não eram melhores do que o Google — que já é uma fonte falha de informações sobre saúde — para orientar os usuários em direção aos diagnósticos corretos ou ajudá-los a determinar o que devem fazer a seguir. Além disso, a tecnologia apresentava riscos específicos, às vezes fornecendo informações falsas ou alterando drasticamente seus conselhos dependendo de pequenas mudanças na formulação das perguntas.

Nenhum dos modelos avaliados no experimento estava “pronto para ser implantado no atendimento direto ao paciente”, concluíram os pesquisadores no artigo, que é o primeiro estudo randomizado desse tipo.

Nos três anos desde que os chatbots com IA foram disponibilizados ao público, as perguntas sobre saúde se tornaram um dos tópicos mais comuns que os usuários os questionam.

Alguns médicos atendem regularmente pacientes que consultaram um modelo de IA para obter uma primeira opinião. Pesquisas revelam que cerca de um em cada seis adultos usou chatbots para encontrar informações sobre saúde pelo menos uma vez por mês. Grandes empresas de IA, incluindo Amazon e OpenAI, lançaram produtos voltados especificamente para responder às perguntas dos usuários sobre saúde.

Essas ferramentas têm despertado entusiasmo por bons motivos: os modelos foram aprovados em exames de licenciamento médico e superaram os médicos em problemas diagnósticos complexos.

Mas Adam Mahdi, professor do Instituto de Internet de Oxford e autor sênior do novo estudo da Nature Medicine, suspeitava que essas questões médicas claras e diretas não eram um bom indicador de quão bem elas funcionavam para pacientes reais

— A medicina não é assim — disse ele. — A medicina é complexa, incompleta, estocástica.

Então, ele e seus colegas elaboraram um experimento. Mais de 1.200 participantes britânicos, a maioria sem formação médica, receberam um cenário médico detalhado, completo com sintomas, informações gerais do estilo de vida e histórico médico. Os pesquisadores pediram aos participantes que conversassem com o bot para descobrir os próximos passos apropriados, como chamar uma ambulância ou se automedicar em casa. Eles testaram chatbots disponíveis comercialmente, como o ChatGPT da OpenAI e o Llama da Meta.

Os pesquisadores descobriram que os participantes escolheram a conduta “correta” — predeterminado por um painel de médicos — em menos da metade das vezes. E os usuários identificaram as condições corretas, como cálculos biliares ou hemorragia subaracnóidea, em cerca de 34% das vezes.

Eles não foram melhores do que o grupo de controle, que recebeu a orientação de realizar a mesma tarefa usando qualquer método de pesquisa que normalmente usariam em casa, principalmente o Google.

O experimento não é uma visão perfeita de como os chatbots respondem a perguntas médicas no mundo real: “os usuários do experimento fizeram perguntas sobre cenários fictícios, que podem ser diferentes de como eles interagiriam com os chatbots sobre sua própria saúde”, disse Ethan Goh, que lidera a Rede de Pesquisa e Avaliação Científica em Inteligência Artificial da Universidade de Stanford.

E como as empresas de IA frequentemente lançam novas versões dos modelos, os chatbots que os participantes usaram há um ano durante o experimento provavelmente são diferentes dos modelos com os quais os usuários interagem hoje. Um porta-voz da OpenAI disse que os modelos que alimentam o ChatGPT hoje são significativamente melhores em responder a perguntas sobre saúde do que o modelo testado no estudo, que desde então foi descontinuado. Eles citaram dados internos que mostraram que muitos novos modelos eram muito menos propensos a cometer erros comuns, incluindo alucinações e erros em situações potencialmente urgentes. A Meta não respondeu a um pedido de comentário.

Mas o estudo ainda esclarece como os encontros com chatbots podem dar errado.

Quando os pesquisadores analisaram os encontros com chatbots, descobriram que, em cerca de metade das vezes, os erros pareciam ser resultado de falhas dos usuários. Os participantes não inseriram informações suficientes ou os sintomas mais relevantes, e os chatbots tiveram que dar conselhos com uma visão incompleta do problema.

Um modelo sugeriu a um usuário que as “dores de estômago intensas” que duraram uma hora poderiam ter sido causadas por indigestão. Mas o participante não incluiu detalhes sobre a intensidade, localização e frequência da dor — todos os quais provavelmente teriam levado o bot ao diagnóstico correto: cálculos biliares.

Em contrapartida, quando os pesquisadores inseriram o quadro médico completo diretamente nos chatbots, eles diagnosticaram corretamente o problema em 94% das vezes.

Uma parte importante do que os médicos aprendem na faculdade de medicina é como reconhecer quais detalhes são relevantes e quais devem ser descartados.

— É preciso muita magia cognitiva e experiência para descobrir quais elementos do caso são importantes para alimentar o bot — disse o chefe do departamento de medicina da Universidade da Califórnia, Robert Wachter, que estuda IA na área da saúde.

Mas Andrew Bean, estudante de pós-graduação em Oxford e principal autor do artigo, disse que o ônus de elaborar a pergunta perfeita não deve necessariamente recair sobre os usuários. Ele disse que os chatbots devem fazer perguntas complementares, da mesma forma que os médicos coletam informações dos pacientes.

— É realmente responsabilidade do usuário saber quais sintomas destacar, ou é em parte responsabilidade do modelo saber o que perguntar? — questionou ele.

Essa é uma área que as empresas de tecnologia estão trabalhando para melhorar. Por exemplo, os modelos atuais do ChatGPT são cerca de seis vezes mais propensos a fazer uma pergunta complementar do que a versão anterior, de acordo com dados fornecidos por um porta-voz da OpenAI.

Mesmo quando os pesquisadores digitavam diretamente o quadro clínico, eles descobriram que os chatbots tinham dificuldade em distinguir corretamente quando um conjunto de sintomas exigia atenção médica imediata ou atendimento não urgente. A doutora que estuda as interações entre pacientes e IA no Mass General Brigham, Danielle Bitterman, disse que isso provavelmente ocorre porque os modelos são treinados principalmente com base em livros didáticos médicos e relatos de casos, mas têm muito menos experiência com a tomada de decisões livres que os médicos aprendem com a experiência.

Em várias ocasiões, os chatbots também retornaram informações inventadas. Em um caso, um modelo orientou um participante a ligar para uma linha de emergência que não tinha dígitos suficientes para ser um número de telefone real.

Os pesquisadores também descobriram outro problema: mesmo pequenas variações na forma como os participantes descreviam seus sintomas ou faziam perguntas alteravam significativamente o conselho do bot.

Por exemplo, dois dos participantes do estudo tinham as mesmas informações iniciais — forte dor de cabeça, sensibilidade à luz e rigidez no pescoço —, mas descreveram o problema aos chatbots de maneira um pouco diferente.

Em um caso, o chatbot tratou o problema como algo menor, que não exigia atenção médica imediata. Na outra resposta, o chatbot considerou os sintomas um sinal de um problema de saúde grave e disse ao usuário para ir ao pronto-socorro.

— Palavras muito, muito pequenas fazem diferenças muito grandes — afirmou Bean.

A Inteligência Artificial tem se tornado cada vez mais presente em nossas vidas, inclusive na área da saúde. Porém, um novo estudo aponta que os conselhos de saúde fornecidos por chatbots de IA nem sempre estão corretos. Como servidor público há mais de 16 anos, vejo a importância de questionar e analisar essas informações para garantir a nossa segurança e bem-estar. É fundamental utilizarmos a tecnologia de forma consciente e crítica, buscando sempre confirmar as informações com profissionais da área da saúde. A IA pode ser uma grande aliada na melhoria da qualidade de vida, mas cabe a nós utilizá-la de forma responsável e criteriosa. Vamos refletir sobre como podemos aproveitar ao máximo o potencial da Inteligência Artificial para aprimorar nossa sociedade e garantir uma vida mais saudável e equilibrada.

Créditos Para a Fonte Original

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *