En los últimos años, la inteligencia artificial ha generado expectativas considerables respecto a su capacidad de mejorar el desempeño de los médicos, mediante un trabajo colaborativo "complementario", donde la suma de capacidades humanas y máquina producirían resultados superiores a los de ambos por separado (1+1>2).
Sin embargo, este análisis sistemático, basado en datos de 52 estudios empíricos en entornos clínicos, cuestiona el alcance real de esta complementariedad en la práctica.
Existen dos enfoques para integrar la IA en la medicina. El primero, la automatización, que propone reemplazar a los médicos en tareas específicas, como el diagnóstico basado en imágenes. Aunque teóricamente más eficiente, este modelo enfrenta barreras económicas, regulatorias, éticas y legales significativas, incluyendo cuestiones de responsabilidad cuando los sistemas cometen errores.
El segundo enfoque, la aumentación (también llamada "trabajo en equipo humano-máquina"), mantiene a los médicos en el circuito de decisión. La máquina actúa como un copiloto o asesor, proporcionando sugerencias independientes, que los médicos pueden incorporar en su juicio final. Este modelo es más compatible con la práctica clínica actual y las regulaciones vigentes.
Hay un marco de análisis de confiabilidad que identifica cuatro escenarios posibles:
- Utopía (1+1>2): La IA y el médico se mejoran continuamente. No se reportó ningún caso en las 87 condiciones estudiadas durante este análisis.
- Ideal (1+1=2): Ambos agentes trabajan en complementariedad perfecta, fallando solo cuando ambos fallan a la vez. Tampoco se documentó aquí.
- Complementario (1<1+1<2): El trabajo conjunto supera al del médicosolo, pero sin alcanzar la complementariedad total. Esta fue la situación más frecuente, observada en 83 de las 87 condiciones.
- Conflicto (1+1<1): El desempeño disminuye con la IA. Ocurrió en 4 condiciones, cuando la confiabilidad del médico decreció con la asistencia de la IA.
→ ¿Supera la IA combinada al médico solo?
El análisis de 87 condiciones de estudio mostró que el trabajo en equipo aumentó la confiabilidad diagnostica en un promedio de 7,1 %, en comparación con los médicos no asistidos por IA. Sin embargo, el equipo humano-IA no superó a la IA sola en el desempeño general. Comparado con el mejor desempeño entre humano e IA por separado, el trabajo conjunto no fue superior en términos de confiabilidad.
→ ¿Se logra verdadera complementariedad?
La confiabilidad observada en el trabajo en equipo fue significativamente menor que la confiabilidad ideal calculada en teoría. Esto demuestra que los equipos humano-IA raramente logran complementariedad plena. La métrica llamada "razón de complementariedad" (confiabilidad observada/confiabilidad ideal) varió inversamente con la brecha de desempeño entre máquina y humano.

La fiabilidad observada del equipo humano-máquina (HMT) era superior a la fiabilidad humana (A), pero no superior a la fiabilidad de la máquina (B) ni de la fiabilidad de los mejores humanos y máquinas (C), y era inferior a la fiabilidad ideal del HMT (D). Se utilizan datos a nivel de condición. Pesos=el número de médico * el número de casos diagnósticos.
Se identificaron dos modalidades operativas:
- Secuencial: El médico forma un juicio inicial, luego revisa la salida de IA. Mostró mejoras mínimas, especialmente en médicos séniors (0,4 %).
- Simultáneo: El médico revisa el caso y la salida de IA concurrentemente. Produjo mejoras superiores (10,7 % en médicos juniors y 6,4 % en séniors).
Este hallazgo es paradójico. El modo secuencial es el requerido por la ley y preferido en la teoría para reducir la dependencia excesiva, pero produce peores resultados.
En cuanto a experiencia, los médicos juniors se beneficiaban significativamente más de la IA que los séniors. En modo secuencial, los médicos experimentados prácticamente no mejoraban su desempeño. Las hipótesis explicativas sugieren que los más experimentados poseen mayor confianza en sus juicios y mayor resistencia a las máquinas, mientras que los principiantes exhiben mayor apreciación algorítmica.
Respecto a las mejoras significativas, solo el 66,7 % de las condiciones estudiadas alcanzó una mejora relativa ≥5 %, el 37,9 % una mejora ≥10 % y el 16,1 % una mejora ≥20 %. Estos umbrales varían según especialidad y contexto clínico.
Este análisis desafía la narrativa optimista sobre la complementariedad automática entre humanos e IA en medicina. Aunque la IA demuestra la capacidad de aumentar el desempeño clínico promedio, logra complementariedad limitada y falla en superar a ambos agentes por separado.
La teoría y la regulación actual priorizan el modo secuencial de trabajo, pero la evidencia empírica favorece el modo simultáneo. Los clínicos juniors se benefician más que los experimentados, lo que plantea interrogantes sobre equidad e implementación.