Tecnología

/ Publicado el 24 de octubre de 2025

Modelos de linguagem grandes

IA supera médicos em diagnósticos, mas pode fazer prescrições excessivas

Si e colaboradores compararam a eficácia da IA com a dos médicos no diagnósticos de doenças crônicas não transmissíveis

Autor/a: Si, Y., Meng, Y., Chen, X. et al.

Fuente: Quality safety and disparity of an AI chatbot in managing chronic diseases: simulated patient experiments. Quality safety and disparity of an AI chatbot in managing chronic diseases: simulated patient experiments

O desenvolvimento rápido de soluções de inteligência artificial (IA) apresenta oportunidades significativas para enfrentar os desafios urgentes associados à prevenção e gestão de doenças crônicas não transmissíveis (DCNTs), particularmente em países de baixo e médio rendimento (LMICs). Um dos fatores que contribuem para as altas taxas de subdiagnóstico e má gestão de DCNTs nesses é o fato de uma proporção substancial dos prestadores de cuidados primários ser menos acessível, acessível e qualificada.

Por exemplo, estudos realizados na China indicaram que apenas cerca de um quarto dos diagnósticos de DCNTs e um terço das prescrições de medicamentos realizadas por profissionais de atenção primária eram consideradas precisas e apropriadas. Em áreas rurais da Índia, três em cada quatro indivíduos que procuram cuidados primários recorrem a prestadores informais, em vez de médicos licenciados ou clínicas formais. Em geral, os profissionais de atenção primária fora das metrópoles frequentemente carecem dos recursos, da formação e do apoio necessários para diagnosticar e gerir DCNTs adequadamente.

Neste contexto, o surgimento da IA generativa abre novas vias para melhorar a acessibilidade aos cuidados de saúde. Ao contrário dos sistemas tradicionais de apoio à decisão clínica, muitas dessas tecnologias estão disponíveis gratuitamente ao público e são capazes de fornecer informações relacionadas com a saúde, transcendendo barreiras geográficas e institucionais.

Apesar de um crescente corpo de investigação demonstrar a eficácia da IA generativa em certas doenças, o desempenho destas ferramentas no diagnóstico e gestão de DCNTs, sobretudo nos LMICs, permanece escasso. Adicionalmente, na ausência de regulamentações legais robustas e salvaguardas profissionais, existem preocupações crescentes sobre a segurança e a conduta ética da IA generativa em interações com pacientes e processos de gestão clínica.

Para abordar estas lacunas, Si e colaboradores (2025) avaliaram a qualidade, segurança e disparidade das consultas médicas para duas DCNTs comuns, fornecidas por um dos chatbots de IA chineses mais populares. O método de Pacientes Simulados (SPs) foi aplicado em 384 interações paciente-IA para avaliar o sistema.

O chatbot escolhido foi o Enhanced Representation through kNowledge IntEgration (ERNIE Bot), lançado oficialmente em agosto de 2023 pela Baidu. Este é um dos chatbots de IA mais populares na China. Este modelo é particularmente relevante, pois foi unicamente desenvolvido e otimizado para a língua e o contexto cultural do país, tendo sido treinado num vasto corpus que inclui literatura médica chinesa, documentos regulamentares e diretrizes clínicas. O ERNIE Bot demonstrou a sua competência ao passar no Exame Nacional de Licenciamento Médico Chinês padrão.

O estudo coletou dados entre o início de dezembro de 2023 até abril de 2024, gerando uma amostra final de 384 ensaios independentes, metade dos quais foram para angina instável e a outra para asma.

Em termos de qualidade processual, o ERNIE Bot demonstrou níveis baixos a moderados de aderência aos checklists clínicos padrão. Entretanto, a tecnologia alcançou taxas de precisão significativamente mais altas nos indicadores de resultado clínico. A taxa de diagnóstico correto atingiu 77,3% e a taxa de prescrição correta de medicamentos foi de 94,3%. O desempenho foi igualmente satisfatório para ambas as condições,

No que diz respeito à segurança, que se concentrou em desfechos incongruentes com as diretrizes padrão, os resultados levantaram preocupações alarmantes sobre a sobreutilização de recursos. Em média, o ERNIE Bot solicitou 3,09 testes laboratoriais e prescreveu 4,09 medicamentos. Para ambas doenças, o chatbot atingiu taxas elevadas de solicitação de testes laboratoriais desnecessários (91,9%) e de prescrição de medicamentos inapropriados ou potencialmente prejudiciais (57,8%).

Ademais, os pesquisadores identificaram disparidades baseadas na idade do paciente e no estado econômico do agregado familiar. Em modelos de regressão multivariável, os pacientes mais velhos (65 anos versus 55 anos) apresentaram uma taxa de diagnóstico correto significativamente mais elevada (aumento de 9,8%).

Mais criticamente, pacientes de agregados familiares mais ricos receberam cuidados mais intensivos. O ERNIE Bot solicitou substancialmente mais testes laboratoriais e prescreveu mais medicamentos para pacientes mais ricos em comparação com os mais pobres. Além disso, em análises bivariáveis, pacientes com cobertura de seguro de saúde mais abrangente receberam relativamente mais medicamentos do que aqueles cobertos por um seguro menos abrangente.

Curiosamente, o desempenho do ERNIE Bot não demonstrou variações diferenciais em relação ao gênero do paciente ou à localização de residência permanente (urbana versus rural) em nenhuma das oito métricas de qualidade e segurança.

O estudo realizou ensaios de referência comparando o desempenho do ERNIE Bot com profissionais de cuidados primários (PCPs) em Luohe, China, e com dois outros modelos de linguagem grandes (LLMs): ChatGPT-4o e DeepSeek R1.

Os PCPs obtiveram taxas relativamente baixas de precisão, com apenas 25,0% de diagnóstico correto e 10,0% de prescrição correta de medicamentos. Contudo, apresentaram taxas de sobreprescrição significativamente mais baixas do que os chatbots, solicitando testes desnecessários em apenas 35,0% dos casos e prescrevendo medicamentos inapropriados em 20,0% dos casos.

Em contraste, outros LLMs demonstraram maior precisão do que o ERNIE Bot e os PCPs: o ChatGPT-4o e o DeepSeek R1 alcançaram precisão diagnóstica de 92,5% e 100,0%, respetivamente, e precisão de prescrição de 100,0% em ambos. No entanto, esta alta precisão veio acompanhada de uma tendência ainda maior para a sobreprescrição. O ChatGPT-4o e o DeepSeek R1 apresentaram taxas substancialmente mais altas de testes desnecessários (92,5% e 100,0%, respetivamente) e de prescrições inapropriadas (67,5% e 60,0%, respetivamente).

Uma análise de sensibilidade indicou que, mesmo considerando apenas o primeiro diagnóstico e a primeira prescrição de medicamento fornecidos pelos chatbots, as taxas de precisão ainda superavam substancialmente as dos médicos. Além disso, a proporção de testes laboratoriais e medicamentos desnecessários nos chatbots foi "muito comparável" à dos médicos.

Em conclusão, embora o ERNIE Bot tenha demonstrado alta precisão diagnóstica e adequação na prescrição de medicamentos, permaneceram desafios críticos, incluindo baixa adesão aos processos clínicos padrão, altas taxas de cuidados desnecessários e amplificação de disparidades socioeconômicas. Esses achados destacaram o duplo potencial dos chatbots de IA: ampliar o acesso à saúde, mas também introduzir novos riscos se forem implantados sem salvaguardas. O desenvolvimento e a integração futuros de sistemas de IA devem priorizar um design centrado na equidade, validação rigorosa e específica para o contexto, além de supervisão humana contínua, para garantir que essa tecnologia contribua de forma segura e ética para o fortalecimento dos sistemas de saúde globais.