Calidad científica y empática de las respuestas

¿Cómo responden a preguntas de pacientes ChatGPT y médicos humanos?

Comparación de respuestas de médicos y chatbots de inteligencia artificial a preguntas de pacientes publicadas en un foro público de redes sociales

Se evaluó el tipo de respuestas a consultas de pacientes en un foro público de médicos y de ChatGPT. Las conclusiones, tras el análisis de las respuestas por parte de un panel externo de profesionales de la salud que desconocía quién había respondido qué cosa, es que, en el 79% de las veces, las explicaciones de ChatGPT eran más empáticas y de mayor calidad.

Puntos clave

Pregunta  

¿Puede un asistente de chatbot de inteligencia artificial proporcionar respuestas a las preguntas de los pacientes que sean de calidad y empatía comparables a las escritas por los médicos?

Hallazgos  

En este estudio transversal de 195 preguntas de pacientes extraídas al azar de un foro de redes sociales, un equipo de profesionales de la salud con licencia comparó las respuestas de médicos y chatbots a las preguntas de los pacientes formuladas públicamente en un foro público de redes sociales. Se prefirieron las respuestas del chatbot a las respuestas de los médicos y se calificaron significativamente más alto tanto en calidad como en empatía.

Significado  

Estos resultados sugieren que los asistentes de inteligencia artificial pueden ayudar a redactar respuestas a las preguntas de los pacientes.


Importancia  

La rápida expansión de la atención médica virtual ha provocado un aumento en los mensajes de los pacientes junto con más trabajo y agotamiento entre los profesionales de la salud. Los asistentes de inteligencia artificial (IA) podrían potencialmente ayudar a crear respuestas a las preguntas de los pacientes al redactar respuestas que podrían ser revisadas por los médicos.

Objetivo  

Evaluar la capacidad de un asistente de chatbot de IA (ChatGPT), lanzado en noviembre de 2022, para brindar respuestas empáticas y de calidad a las preguntas de los pacientes.

Diseño, entorno y participantes  

En este estudio transversal, se utilizó una base de datos pública y no identificable de preguntas de un foro público de redes sociales (r/AskDocs de Reddit) para seleccionar al azar 195 intercambios de octubre de 2022 en los que un médico verificado respondió a una pregunta pública.

Las respuestas del chatbot se generaron ingresando la pregunta original en una nueva sesión (sin que se hayan hecho preguntas previas en la sesión) el 22 y 23 de diciembre de 2022.

La pregunta original junto con las respuestas anónimas y ordenadas aleatoriamente del médico y del chatbot fueron evaluadas por triplicado por un equipo de profesionales de la salud autorizados. Los evaluadores eligieron “qué respuesta fue mejor” y juzgaron tanto “la calidad de la información proporcionada” ( muy mala, mala , aceptable, buena, o muy buena) y "la empatía o el trato brindado al lado de la cama" (no empática, poco empática, moderadamente empática, empática y muy empática). Los resultados medios se ordenaron en una escala de 1 a 5 y se compararon entre chatbot y médicos.

Resultados  

De las 195 preguntas y respuestas, los evaluadores prefirieron las respuestas del chatbot a las respuestas de los médicos en el 78,6 % (IC del 95 %, 75,0 %-81,8 %) de las 585 evaluaciones.

Las respuestas medias (IQR) de los médicos fueron significativamente más cortas que las respuestas del chatbot (52 [17-62] palabras frente a 211 [168-245] palabras; t  = 25,4; P  < 0,001). Las respuestas de los chatbots se calificaron como de una calidad significativamente mayor que las respuestas de los médicos (t  = 13,3; P  < 0,001).

La proporción de respuestas calificadas como de buena o muy buena calidad (≥ 4), por ejemplo, fue mayor para el chatbot que para los médicos (chatbot: 78,5 %, IC del 95 %, 72,3 %-84,1 %; médicos: 22,1 %, IC del 95 %, 16,4%-28,2%;). Esto equivalía a una prevalencia 3,6 veces mayor de respuestas de buena o muy buena calidad para el chatbot.

Las respuestas del chatbot también se calificaron significativamente más empáticas que las respuestas de los médicos (t = 18,9; P  < 0,001).

La proporción de respuestas calificadas como empáticas o muy empáticas (≥4) fue mayor para el chatbot que para los médicos (médicos: 4,6 %, IC del 95 %, 2,1 %-7,7 %; chatbot: 45,1 %, IC del 95 %, 38,5 %-51,8 %; médicos: 4,6%, IC 95%, 2,1%-7,7%).

Esto representó una prevalencia 9,8 veces mayor de respuestas empáticas o muy empáticas para el chatbot.


Conclusiones  

En este estudio transversal, un chatbot generó respuestas empáticas y de calidad a las preguntas de los pacientes planteadas en un foro en línea.

Se justifica una mayor exploración de esta tecnología en entornos clínicos, como el uso de chatbot para redactar respuestas que luego los médicos podrían editar. Los ensayos aleatorizados podrían evaluar más a fondo si el uso de asistentes de IA podría mejorar las respuestas, reducir el agotamiento de los médicos y mejorar los resultados de los pacientes.


Referencia: Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. John W. Ayers, Adam Poliak, Mark Dredze, PhD4; et al. JAMA Intern Med. 2023;183 (6):589-596. doi:10.1001/jamainternmed.2023.1838