Análisis de calidad, precisión y sesgo

Resúmenes de bibliografía médica basados en ChatGPT

En comparación con los resúmenes de revistas médicas, ChatGPT generó resúmenes que eran un 70% más cortos, pero de alta calidad, alta precisión y bajo sesgo.

Autor/a: Joel Hake, Miles Crowley, Allison Coy, Denton Shanks, Aundria Eoff, Kalee Kirmer-Voss, et al.

Fuente: Quality, Accuracy, and Bias in ChatGPT-Based Summarization of Medical Abstracts

Introducción

PubMed indexó casi 1 millón de nuevos artículos de revistas en 2020, y el conocimiento médico mundial ahora se duplica aproximadamente cada 73 días. Mientras tanto, los modelos de atención que enfatizan la productividad clínica dejan a los médicos con escaso tiempo para revisar la literatura académica, incluso dentro de su propia especialidad.

Los avances recientes en inteligencia artificial (IA) y procesamiento del lenguaje natural podrían ofrecer nuevas herramientas para enfrentar este problema. Los modelos de lenguaje grande (LLM) son programas informáticos basados ​​en redes neuronales que utilizan una comprensión estadística detallada del lenguaje escrito para realizar muchas tareas, incluida la generación de texto, el resumen, el desarrollo de software y la predicción. Un LLM, Chat Generative Pretrained Transformer (ChatGPT) ha atraído recientemente una atención sustancial en la prensa popular. Nos preguntamos si los LLM podrían ayudar a los médicos a revisar la literatura médica de manera más sistemática y eficiente.

Desafortunadamente, los LLM también pueden "alucinar", produciendo textos que, aunque a menudo son convincentes y aparentemente autorizados, no se basan en hechos. Además, se han planteado muchas preocupaciones con respecto a la posibilidad de sesgo en los modelos de IA, incluidos los LLM. El sesgo en los modelos de IA puede surgir tanto de sesgos implícitos como explícitos presentes en sus conjuntos de datos de entrenamiento. Podrían surgir sesgos adicionales durante el proceso de ajuste.

Los modelos de lenguaje grandes se pueden ajustar mediante un enfoque de aprendizaje por refuerzo, que utiliza comentarios de humanos para mejorar el rendimiento del modelo. Dicha retroalimentación podría conllevar sesgos implícitos y/o explícitos por parte de los humanos que la brindan. Por lo tanto, el uso responsable de los LLM en cualquier etapa del proceso de investigación clínica requiere una validación cuidadosa para garantizar que es poco probable que usos específicos exacerben las desigualdades sistémicas preexistentes en la atención médica.

Para realizar tareas, los LLM reciben instrucciones e información de respaldo. Nos preguntamos si los LLM, cuando reciben instrucciones cuidadosas, podrían (1) ayudar a los médicos a encontrar artículos relevantes para su especialidad médica y (2) producir resúmenes razonables de los hallazgos principales sin introducir imprecisiones como resultado de las alucinaciones. Específicamente, investigamos si ChatGPT-3.5 podía producir (1) resúmenes de resúmenes médicos de alta calidad, (2) precisos y (3) libres de sesgos, centrándose en los puntos que tenían más probabilidades de ser destacados para los médicos en ejercicio.

También solicitamos a ChatGPT que reflexionara sobre la calidad, precisión y parcialidad de sus propios resúmenes y evaluamos su desempeño en la clasificación de la relevancia de los artículos para diversas especialidades médicas (p. ej., medicina interna, cirugía, etc.). La autorreflexión se ha utilizado para mejorar la capacidad de los LLM para realizar razonamiento lógico. Comparamos estas autorreflexiones y clasificaciones de relevancia con anotaciones de médicos humanos.


Objetivos

El conocimiento clínico mundial se está expandiendo rápidamente, pero los médicos tienen escaso tiempo para revisar la literatura científica. Los modelos de lenguaje grandes (por ejemplo, Chat Generative Pretrained Transformer [ChatGPT]) podrían ayudar a resumir y priorizar los artículos de investigación a revisar. Sin embargo, los modelos de lenguaje grandes a veces “alucinan” información incorrecta.

Métodos

Evaluamos la capacidad de ChatGPT para resumir 140 resúmenes revisados ​​por pares de 14 revistas. Los médicos calificaron la calidad, precisión y sesgo de los resúmenes de ChatGPT. También comparamos las calificaciones humanas de relevancia para diversas áreas de la medicina con las calificaciones de relevancia de ChatGPT.

Resultados

ChatGPT produjo resúmenes que eran un 70 % más cortos (la longitud media del resumen de 2438 caracteres se redujo a 739 caracteres). Sin embargo, los resúmenes se calificaron como de alta calidad (puntuación mediana 90, rango intercuartil [RIC] 87,0-92,5; escala 0-100), precisión alta (mediana 92,5, RIC 89,0-95,0) y sesgo bajo (mediana 0, RIC 0-7,5). Eran poco comunes las imprecisiones graves y las alucinaciones.

La clasificación de la relevancia de revistas para diversos campos de la medicina reflejó estrechamente las clasificaciones de los médicos (error estándar no lineal de la regresión [SER] 8,6 en una escala de 0 a 100). Sin embargo, la clasificación de relevancia para artículos individuales fue mucho más modesta (SER 22.3).

Conclusiones

Los resúmenes generados por ChatGPT fueron un 70% más cortos que la longitud media de los resúmenes y se caracterizaron por su alta calidad, alta precisión y bajo sesgo. Por el contrario, ChatGPT tenía una capacidad modesta para clasificar la relevancia de los artículos para las especialidades médicas.

Sugerimos que ChatGPT puede ayudar a los médicos de familia a acelerar la revisión de la literatura científica y hemos desarrollado un software (pyJournalWatch) para respaldar esta aplicación.

Las decisiones médicas críticas para la vida deben basarse en una evaluación completa, crítica y reflexiva del texto completo de los artículos de investigación en el contexto de las directrices clínicas.


Discusión

Evaluamos si el modelo GPT-3.5, implementado como ChatGPT, podría resumir resúmenes de investigaciones médicas y determinar la relevancia de estos artículos para diversas especialidades médicas. Nuestros análisis revelan que ChatGPT puede producir resúmenes de resúmenes de alta calidad, alta precisión y bajo sesgo a pesar de tener un límite de palabras. Concluimos que debido a que los resúmenes de ChatGPT eran un 70% más cortos que los resúmenes y generalmente eran de alta calidad, alta precisión y bajo sesgo, es probable que sean útiles como herramienta de detección para ayudar a los médicos y científicos ocupados a evaluar más rápidamente si se debe realizar una revisión adicional de un artículo.es probable que valga la pena.

Las decisiones médicas críticas para la vida, por razones obvias, deben basarse en una evaluación completa, crítica y reflexiva del texto completo de los artículos en el contexto de la evidencia disponible a partir de metanálisis y directrices profesionales. Nuestros datos también muestran que ChatGPT fue mucho menos capaz de clasificar la relevancia de artículos específicos para diversas especialidades médicas. Esperábamos crear un agente digital con el objetivo de vigilar constantemente la literatura médica, identificar artículos relevantes de interés para una especialidad determinada y reenviarlos a un usuario. La incapacidad de Chat-GPT para clasificar de manera confiable la relevancia de artículos específicos limita nuestra capacidad para construir dicho agente. Esperamos que en futuras iteraciones de LLM, estas herramientas sean más capaces de clasificar por relevancia.