Análisis de calidad, precisión y sesgo | 01 ABR 24

Resúmenes de bibliografía médica basados en ChatGPT

En comparación con los resúmenes de revistas médicas, ChatGPT generó resúmenes que eran un 70% más cortos, pero de alta calidad, alta precisión y bajo sesgo.
Autor/a: Joel Hake, Miles Crowley, Allison Coy, Denton Shanks, Aundria Eoff, Kalee Kirmer-Voss, et al. Quality, Accuracy, and Bias in ChatGPT-Based Summarization of Medical Abstracts

Introducción

PubMed indexó casi 1 millón de nuevos artículos de revistas en 2020, y el conocimiento médico mundial ahora se duplica aproximadamente cada 73 días. Mientras tanto, los modelos de atención que enfatizan la productividad clínica dejan a los médicos con escaso tiempo para revisar la literatura académica, incluso dentro de su propia especialidad.

Los avances recientes en inteligencia artificial (IA) y procesamiento del lenguaje natural podrían ofrecer nuevas herramientas para enfrentar este problema. Los modelos de lenguaje grande (LLM) son programas informáticos basados ​​en redes neuronales que utilizan una comprensión estadística detallada del lenguaje escrito para realizar muchas tareas, incluida la generación de texto, el resumen, el desarrollo de software y la predicción. Un LLM, Chat Generative Pretrained Transformer (ChatGPT) ha atraído recientemente una atención sustancial en la prensa popular. Nos preguntamos si los LLM podrían ayudar a los médicos a revisar la literatura médica de manera más sistemática y eficiente.

Desafortunadamente, los LLM también pueden "alucinar", produciendo textos que, aunque a menudo son convincentes y aparentemente autorizados, no se basan en hechos. Además, se han planteado muchas preocupaciones con respecto a la posibilidad de sesgo en los modelos de IA, incluidos los LLM. El sesgo en los modelos de IA puede surgir tanto de sesgos implícitos como explícitos presentes en sus conjuntos de datos de entrenamiento. Podrían surgir sesgos adicionales durante el proceso de ajuste.

Los modelos de lenguaje grandes se pueden ajustar mediante un enfoque de aprendizaje por refuerzo, que utiliza comentarios de humanos para mejorar el rendimiento del modelo. Dicha retroalimentación podría conllevar sesgos implícitos y/o explícitos por parte de los humanos que la brindan. Por lo tanto, el uso responsable de los LLM en cualquier etapa del proceso de investigación clínica requiere una validación cuidadosa para garantizar que es poco probable que usos específicos exacerben las desigualdades sistémicas preexistentes en la atención médica.

Para realizar tareas, los LLM reciben instrucciones e información de respaldo. Nos preguntamos si los LLM, cuando reciben instrucciones cuidadosas, podrían (1) ayudar a los médicos a encontrar artículos relevantes para su especialidad médica y (2) producir resúmenes razonables de los hallazgos principales sin introducir imprecisiones como resultado de las alucinaciones. Específicamente, investigamos si ChatGPT-3.5 podía producir (1) resúmenes de resúmenes médicos de alta calidad, (2) precisos y (3) libres de sesgos, centrándose en los puntos que tenían más probabilidades de ser destacados para los médicos en ejercicio.

También solicitamos a ChatGPT que reflexionara sobre la calidad, precisión y parcialidad de sus propios resúmenes y evaluamos su desempeño en la clasificación de la relevancia de los artículos para diversas especialidades médicas (p. ej., medicina interna, cirugía, etc.). La autorreflexión se ha utilizado para mejorar la capacidad de los LLM para realizar razonamiento lógico. Comparamos estas autorreflexiones y clasificaciones de relevancia con anotaciones de médicos humanos.


Objetivos

El conocimiento clínico mundial se está expandiendo rápidamente, pero los médicos tienen escaso tiempo para revisar la literatura científica. Los modelos de lenguaje grandes (por ejemplo, Chat Generative Pretrained Transformer [ChatGPT]) podrían ayudar a resumir y priorizar los artículos de investigación a revisar. Sin embargo, los modelos de lenguaje grandes a veces “alucinan” información incorrecta.

Métodos

 

Comentarios

Para ver los comentarios de sus colegas o para expresar su opinión debe ingresar con su cuenta de IntraMed.

AAIP RNBD
Términos y condiciones de uso | Política de privacidad | Todos los derechos reservados | Copyright 1997-2024