ChatGPT erra em metade das emergências e exibe viés racial, aponta estudo

Saúde
ChatGPT erra em metade das emergências e exibe viés racial, aponta estudoPesquisa na Nature revela que ferramenta sugere espera de 24h mesmo em casos críticos
  Redação Tropiquim,  11 de março de 2026, 12h13

A inteligência artificial da OpenAI falhou em reconhecer emergências médicas reais em mais da metade dos casos analisados por pesquisadores do Monte Sinai, em Nova York. O ChatGPT Health recomendou esperar entre 24 e 48 horas para buscar atendimento mesmo quando o paciente estava em estado crítico, em 51,6% das situações.

O estudo foi publicado na revista Nature e identificou ainda que a ferramenta respondeu de forma diferente para pacientes com a mesma condição clínica — a depender da raça declarada.

Viés racial e erros nos casos mais graves

O exemplo mais alarmante do estudo envolve cetoacidose diabética — uma complicação grave do diabetes que exige atendimento imediato. Para um homem negro com a condição, o sistema recomendou “monitorar em casa”. Para um homem branco com a mesma apresentação clínica, a orientação foi “ir ao pronto-socorro agora”.

“Em um país como o Brasil, onde desigualdades raciais na saúde já são uma preocupação séria, esse tipo de inconsistência precisa ser analisado com atenção”, afirmou Ashwin Ramaswamy, pesquisador responsável pelo estudo, publicado na Nature.

O perigo, segundo Ramaswamy, não está no erro isolado, mas no padrão em que ele ocorre: a IA acerta em mais de 90% dos casos de gravidade média, criando uma falsa sensação de confiança — e falha justamente nos casos mais críticos. “Você ganha confiança depois de dez boas respostas, e a décima primeira diz para você ficar em casa durante uma crise diabética”, comparou o pesquisador.

Exames laboratoriais enganam a IA — e família piora o diagnóstico

Outro achado relevante é que a inclusão de resultados de exames pode gerar segurança falsa. O sistema tende a se fixar em valores isolados que parecem normais — como potássio ou creatinina dentro da faixa esperada — e ignora o quadro clínico geral que indicaria uma emergência.

A presença de comentários de familiares minimizando os sintomas, como “acho que você está bem”, tornou o ChatGPT Health quase 12 vezes mais propenso a recomendar um nível menor de atendimento. Os pesquisadores chamam esse comportamento de viés de ancoragem — um problema reconhecido no raciocínio clínico humano, mas para o qual médicos são treinados a resistir.

A metodologia usou 60 casos clínicos fictícios baseados em diretrizes de 58 sociedades médicas, com 16 variações para cada caso, testando fatores não clínicos como raça, gênero e influência de terceiros. As inconsistências no recurso de crise suicida — que funcionou em 100% das vezes em um contexto e 0% em outro quase idêntico — levaram os pesquisadores a defender avaliação independente de segurança antes do lançamento de novos produtos.

Regulação no Brasil ainda está aquém dos riscos

No Brasil, o coordenador da Comissão de Saúde Digital da Associação Médica Brasileira (AMB), Antônio Carlos, reconhece bases regulatórias como a LGPD e a atuação da Anvisa para softwares com finalidade médica, mas avalia que faltam critérios claros para triagem e apoio à decisão clínica. “Informação geral é uma coisa; triagem, diagnóstico e apoio à decisão exigem validação, monitoramento, transparência e governança”, afirmou.

No campo político, a regulação de IA avança de forma fragmentada: o TSE aprovou regras que proíbem o ChatGPT de recomendar candidatos nas eleições de 2026 e invertem o ônus da prova em casos de IA — mas na saúde, onde os erros podem custar vidas, critérios equivalentes ainda não foram estabelecidos.

Para os pesquisadores, ferramentas de IA podem ser úteis para entender diagnósticos, pesquisar efeitos colaterais de medicamentos ou esclarecer dúvidas simples — mas não devem substituir a consulta médica. “A IA não faz exame físico, não mede sinais vitais e não responde legalmente pelo cuidado. Por isso, não pode assumir o papel do médico”, resumiu o representante da AMB.

Ramaswamy reforçou que a avaliação de segurança deveria preceder o lançamento ao público, “da mesma forma que não pularíamos testes de segurança para um novo medicamento apenas porque ele parece promissor”.

escrito com o apoio da inteligência artificial

este texto foi gerado por IA sob curadoria da equipe do Tropiquim. todos os fatos foram verificados com rigor.

Rússia fornece ao Irã localização de navios e bases dos EUA, diz Washington Post

Negócios

Compass protocola pedido de IPO na CVM e busca vaga no Novo Mercado da B3

Saúde

Japão aprova primeiro tratamento com células-tronco iPS para Parkinson

Política