Decisiones al lado de la cama del enfermo (bedside) hace referencia a la tarea médica de aplicar el conocimiento en un caso particular. Cuando decimos inteligencia artificial usualmente hablamos de Grandes Modelos de Lenguaje (LLM) a los que podemos acceder desde un móvil, tablet o computadora.1–4
Ciertamente, la selección de tratamientos para cada caso particular tiene el desafío de la extrapolación y el contexto real en el que ese tratamiento va a aplicarse: ¿Es la presentación de la enfermedad típica en este paciente? ¿Qué otras comorbilidades tiene que condicionan la terapéutica? ¿Son sus condiciones clínicas similares a las de los pacientes que fueron tratadas en los ensayos clínicos? ¿Es su expectativa de vida suficiente para obtener los beneficios esperables de la terapia? ¿Tolerará la toxicidad del tratamiento? ¿Tiene el soporte necesario para tratar las complicaciones eventuales? ¿Estamos respetando sus valores al seleccionar el tratamiento? ¿Estaré coaccionando su libertad al exponer las alternativas? ¿Podrá acceder al tratamiento o estaré sometiéndolo a una tortura burocrática persiguiendo una quimera? |
Estas preguntas que los médicos nos formulamos antes de proponer un tratamiento no las formula ninguno de los grandes modelos de lenguaje, los cuales están diseñados para responder a la pregunta planteada mediante el análisis de grandes volúmenes de datos.
Han avanzado de un modo extraordinario, cada vez interpretan mejor la pregunta enunciada; cada vez alucinan menos; cada vez nos responden de un modo más adecuado a los datos que se han publicado. Eso hace que sus respuestas sean cada vez más parecidas a las que nos dirían los expertos en el campo.
¿Qué es un experto en medicina? En algunos casos, los menos, aquel que vio más casos similares a los del consultante (aquí la expertitud cuantitativa asume que también lo es en forma cualitativa y que quien más vio, más curó –lo cual no siempre es cierto); en otros, quien está en un puesto encumbrado en un hospital renombrado; en otros, aquel que más ha publicado sobre el tema (que no es necesariamente ni el que más pacientes vio ni el más encumbrado); en otros casos, el que fue seleccionado para hablar sobre el tema en un congreso (lo cual confunde medicina basada en la evidencia con medicina basada en la elocuencia); en otros casos, el que trató el tema en los medios, especialmente en la televisión o en algún canal de streaming en Internet; en otros, el que fue entrevistado para un periódico… En fin, la palabra experto en medicina, raramente se relaciona con una persona sabia y muchas más veces con una persona famosa, lo cual en general es un antónimo de lo primero.
Asumiendo entonces que el último experto médico es un Gran Modelo de Lenguaje, es razonable que pensemos en sus ventajas y desventajas.5–7
Dentro de las ventajas está su costo (suele ser accesible y muchas veces gratuito), por lo menos mientras está aprendiendo (es una paradoja, pero es un experto que aprende rápidamente); su disponibilidad, por lo menos mientras haya conectividad, responde a cualquier hora del día cualquier día de la semana; su claridad, muchas veces sus respuestas se comprenden mejor que las emanadas de un experto humano; su actualidad, en general las respuestas jerarquizan el conocimiento más reciente sobre el pretérito; su exhaustividad, revisa las publicaciones más renombradas; su transparencia, podemos pedirle que fundamente bibliográficamente sus afirmaciones y chequearlas; su apertura, se muestra dispuesta a explorar con mayor profundidad una o más de sus aseveraciones.
Por el momento, limitemos sus ventajas a las citadas: accesible, disponible, claro, actualizado, exhaustivo, transparente y abierto. No son pocas.
Veamos ahora las desventajas, lo que podríamos denominar la sombra:5,8–12
a. No realiza una anamnesis exhaustiva ni hace un examen clínico completo al paciente.
b. Sus respuestas están influenciadas por las publicaciones médicas en inglés que usualmente reflejan lo que sucede en poblaciones europeas o norteamericanas, las cuales pueden ser genómicas, epigenómicas, con condiciones socioeconómicas, educativas o nutricionalmente diferentes de las nuestras.
c. Tiene, por lo tanto, el sesgo de publicación: son más fácilmente publicables resultados positivos que negativos, son más fácilmente publicables resultados originales que confirmatorios y son más fácilmente publicables resultados extraordinarios que ordinarios. De hecho, en oncología, en las últimas cincuenta drogas autorizadas para ser comercializadas no hay prácticamente ningún ensayo confirmatorio del estudio pivotal con el que fueron autorizadas.
d. Tienen también el sesgo de los ensayos clínicos: población seleccionada por condiciones clínicas excelentes, exhaustivamente estudiadas, seguida en centros de mayor complejidad, tratadas con tratamientos administrados por personal más experto, en ámbitos más seguros y luego de haber firmado un consentimiento. El simple hecho de ingresar a un estudio clínico puede ser considerado un factor pronóstico en sí mismo, pues raramente se obtienen los mismos resultados en la práctica clínica.
e. Tiende a considerar los criterios de comercialización de las agencias (FDA o EMEA) como criterios de evidencia de utilidad, aún cuando ambas se basan esencialmente en criterios de seguridad.
f. Allí donde los estudios clínicos no pueden dar una respuesta taxativa recurre a los consensos médicos o societarios sin considerar los conflictos de intereses y el bajo nivel de evidencia de los mismos.
g. Tiende a sobredimensionar la eficacia de un tratamiento sobre la seguridad del mismo. Esta última frecuentemente está subregistrada en los ensayos clínicos y suele ser mayor en la práctica.
h. Tiende a considerar hallazgos positivos en metas subrogadas como predictivos de eficacia en metas definitivas. Me explico: en oncología se emplea frecuentemente el tiempo libre a la progresión de enfermedad (Progression Free Survival) como sustituto de sobrevida global (Overall Survival), aún cuando hay muchas evidencias de que pueden ser discordantes.
i. En general, no considera en las recomendaciones la toxicidad financiera que los costos de los tratamientos pueden tener para el paciente o el sistema de salud.
Lo que es interesante es que las desventajas puntuadas de la “a” a la “i” son exactamente las mismas críticas que podríamos hacer a las recomendaciones de muchos colegas: más de la mitad de los pacientes que vienen a mi consulta no han sido examinados clínicamente y los médicos conocen menos de un tercio de los antecedentes clínicos de sus enfermos.
Todos los sesgos, extrapolaciones, desconsideraciones y conflictos de intereses son aplicables a numerosas indicaciones médicas.
¿Hay algunas preguntas que podríamos formular al nuevo experto digital? Sí, en primer lugar, podríamos preguntarle cuántos pacientes de nuestra edad o con algunas de nuestras comorbilidades (diabetes, infarto de miocardio, insuficiencia renal, hipertensión, etc.) fueron incluidos en los estudios. Esto nos daría una idea de cuánto se aplica lo que dice a nuestro caso en particular. Pero, quizás, la mejor pregunta que podemos formularle a la inteligencia artificial es que calcule el índice de fragilidad (Fragility Index) del estudio que cita como fundamento de sus afirmaciones.13,14 |
El índice de fragilidad calcula cuántos pacientes deberían cambiar de rama para que el resultado sea negativo: te sorprenderá saber que en oncología la mayoría de los estudios cambiarían de positivos a negativos con menos de cinco pacientes que cambiaran de rama (en muchos casos, con solo dos pacientes que cambien de rama). Lo cual muestra que son resultados muy frágiles.15,16
Ahora viene el peligro.
Lo más peligroso que tiene un experto accesible, disponible, claro, actualizado, exhaustivo, transparente y abierto pero sesgado y descontextualizado es que es creíble. Esto lo hace un formidable aliado del marketing. Especialmente del marketing farmacéutico.
La creencia acrítica en su respuesta pone en peligro nuestra vida y sobre todo nuestra calidad de vida.
Se van a administrar tratamientos más tóxicos, más modernos y más caros, con bajo nivel de evidencia, fundamentados en estudios de elevada fragilidad y eso va a redundar en mayor toxicidad.
Cuando esas recomendaciones, muchas veces cuestionables, no sean accesibles por los costos, se va a generar una gran angustia en el paciente y su familia, lo cual va a empeorar la calidad de vida.
En virtud de que el tiempo que se demora en obtener una respuesta es de apenas segundos, el tiempo médico, que es el más valioso instrumento de la medicina, necesario para el análisis, la evaluación del paciente y la adecuación del tratamiento a cada caso, va a ser subestimado e infravalorado, con lo cual los pacientes serán cada vez peor vistos y peor seguidos.
No es una hipótesis. Es lo que está pasando.
La manera de revertir este proceso es que los médicos comprendamos que nuestra tarea no es prescribir, sino cuidar. No es tratar enfermedades, sino enfermos. No es practicar una medicina a la moda sino una buena medicina que ayude a que nuestro paciente viva más y viva mejor. Si no es posible lograr ambos objetivos, la elección la tiene nuestro paciente. |
Bibliografía
1. Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. Nature. 2023;620(7972). doi:10.1038/s41586-023-06291-2
2. Thirunavukarasu AJ, Ting DSJ, Elangovan K, Gutierrez L, Tan TF, Ting DSW. Large language models in medicine. Nat Med. 2023;29(8). doi:10.1038/s41591-023-02448-8
3. Cascella M, Montomoli J, Bellini V, Bignami E. Evaluating the Feasibility of ChatGPT in Healthcare: An Analysis of Multiple Clinical and Research Scenarios. J Med Syst. 2023;47(1). doi:10.1007/s10916-023-01925-4
4. Sallam M. ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns. Healthcare (Switzerland). 2023;11(6). doi:10.3390/healthcare11060887
5. Hopson LR, Branzetti J, Gisondi MA, Regan L. What the experts see: A qualitative analysis of the behaviors of master adaptive learners in emergency medicine. AEM Educ Train. 2024;8(1). doi:10.1002/aet2.10943
6. Deo RC. Machine learning in medicine. Circulation. 2015;132(20). doi:10.1161/CIRCULATIONAHA.115.001593
7. Gille F, Jobin A, Ienca M. What we talk about when we talk about trust: Theory of trust for AI in healthcare. Intell Based Med. 2020;1-2. doi:10.1016/j.ibmed.2020.100001
8. Dickersin K. The Existence of Publication Bias and Risk Factors for Its Occurrence. JAMA: The Journal of the American Medical Association. 1990;263(10). doi:10.1001/jama.1990.03440100097014
9. Pannucci CJ, Wilkins EG. Identifying and avoiding bias in research. Plast Reconstr Surg. 2010;126(2). doi:10.1097/PRS.0b013e3181de24bc
10. Borgerson K. Valuing evidence: Bias and the evidence hierarchy of evidence-based medicine. Perspect Biol Med. 2009;52(2). doi:10.1353/pbm.0.0086
11. Sargeant JM, Brennan ML, O’Connor AM. Levels of Evidence, Quality Assessment, and Risk of Bias: Evaluating the Internal Validity of Primary Research. Front Vet Sci. 2022;9. doi:10.3389/fvets.2022.960957
12. Fitzpatrick R, Davey C, Buxton MJ, Jones DR. Evaluating patient-based outcome measures for use in clinical trials. Health Technol Assess (Rockv). 1998;2(14). doi:10.3310/hta2140
13. Tignanelli CJ, Napolitano LM. The Fragility Index in Randomized Clinical Trials as a Means of Optimizing Patient Care. JAMA Surg. 2019;154(1). doi:10.1001/jamasurg.2018.4318
14. Lin L, Xing A, Chu H, et al. Assessing the robustness of results from clinical trials and meta-analyses with the fragility index. Am J Obstet Gynecol. 2023;228(3). doi:10.1016/j.ajog.2022.08.053
15. Suresh N V., Go BC, Fritz CG, et al. The fragility index: how robust are the outcomes of head and neck cancer randomised, controlled trials? Journal of Laryngology and Otology. 2024;138(4). doi:10.1017/S0022215123001755
16. Ofer J, Gilboa S, Pras Y, Markel G, Bomze D, Meirson T. Survival-inferred fragility index of FDA-approved cancer drugs using surrogate endpoints. Journal of Clinical Oncology. 2023;41(16_suppl). doi:10.1200/jco.2023.41.16_suppl.1573
![]() |
Ernesto Gil Deza Médico Oncólogo. |