Introducción |
Los modelos generativos han revolucionado el paisaje de la inteligencia artificial (IA), ofreciendo capacidades innovadoras en la generación de imágenes con potencial transformador. Esta innovación abrió nuevas posibilidades en la obtención de imágenes médicas, incluso en oftalmología, donde se han empleado redes generativas adversarias (RGA) para la síntesis de imágenes, incluyendo la generación de fotografías del fondo de ojo.
A pesar de su éxito, las RGA enfrentaron limitaciones como la generación de artefactos y una variedad limitada de salidas de imágenes (conocidas como colapso de modo), lo que llevó al advenimiento de los modelos de difusión. Los modelos de difusión han logrado una alta fidelidad y diversidad en la generación de imágenes de fotografías de fondo de ojo en color (FFC) e imágenes de tomografía de coherencia óptica (TCO) que son indistinguibles de las fotografías clínicas reales.
En oftalmología, el aprovechamiento de imágenes sintéticas no solo mejora el entrenamiento de modelos de aprendizaje profundo (AP) sino que también facilita el desarrollo de soluciones innovadoras para enfermedades raras, como la enfermedad retiniana hereditaria (ERH). Al mismo tiempo, la llegada de los modelos de visión y lenguaje (MVL) ha impulsado avances significativos en el procesamiento del lenguaje natural.
Historia y visión general de los modelos generativos |
Un modelo fundamental es un sistema de IA que se desarrolla a través de un extenso entrenamiento autosupervisado en grandes cantidades de datos sin etiquetar que pueden adaptarse posteriormente para una variedad de tareas posteriores. Su capacidad de ser entrenado en datos multimodales, como texto e imágenes, le permite realizar tareas como generar texto a partir de imágenes y crear imágenes a partir de descripciones textuales. En términos generales, existen cuatro categorías de modelos básicos: modelos de lenguaje grandes (MLG), modelos de visión grandes (MVG), modelos de visión y lenguaje (MVL) y modelos multimodales grandes (MMG).
Los MLG son modelos centrados en texto, entrenados en corpus textuales extensos que acumulan billones de palabras, lo que les permite generar texto similar al humano. Los MVG se especializan en procesamiento de imágenes y se entrenan en amplios conjuntos de datos de imágenes para tareas como reconocimiento y generación de imágenes. Los MVL pueden generar imágenes únicas basadas en indicaciones textuales después de ser entrenados en conjuntos de datos que contienen pares de imágenes y textos. Estos conjuntos de datos comprenden millones de imágenes pareadas con descripciones textuales correspondientes para permitir que modelos como DALL-E y Stable Diffusion entiendan y creen contenido visual complejo en respuesta a indicaciones textuales. Los MMG representan la categoría más avanzada. Están diseñados para procesar y generar contenido en múltiples formatos, incluidos texto, imágenes, videos y música.
Modelos de imagen a imagen |
Un momento crucial en la generación de imágenes impulsada por IA fue la introducción de las RGA. Las RGA constan de dos redes neuronales: el generador y el discriminador.
El generador crea imágenes, mientras que el discriminador las evalúa. El objetivo del generador es producir imágenes tan realistas que el discriminador no pueda diferenciarlas de las imágenes reales.
Este proceso antagónico da como resultado que el generador produzca imágenes cada vez más refinadas. Si bien las RGA marcaron un avance significativo, tenían limitaciones, incluyendo el potencial de generar artefactos y el desafío del colapso de modos, donde el generador produce variedades limitadas de resultados.
Los modelos de difusión mitigan eficazmente estos problemas. Para la generación de artefactos, los modelos de difusión mejoran la calidad de la imagen al eliminar gradualmente el ruido agregado a una imagen de manera controlada. Esto implica una serie de pequeños ajustes precisos, lo que da como resultado métricas de rendimiento superiores en pruebas de diversidad y realismo de imágenes. En cuanto al colapso de modo, el proceso iterativo de reducción de ruido ayuda a mantener una amplia variedad de tipos de imágenes, lo que evita que el modelo limite su variedad de salida, una limitación frecuente con las RGA. El método de entrenamiento de los modelos de difusión está diseñado específicamente para mejorar tanto el detalle como la diversidad de las imágenes, superando así de manera efectiva estos inconvenientes observados en los métodos basados en RGA.
> Casos de uso
Las RGA y los modelos de difusión son cada vez más fundamentales en oftalmología, ya que ofrecen una amplia gama de aplicaciones y capacidades. Las RGA pueden predecir resultados posteriores a la intervención, como la reducción del edema macular y los resultados de las cirugías oculoplásticas, eliminar artefactos de las FFC, generar imágenes de angiografía a partir de las FFC mediante transferencia de dominio, crear imágenes sintéticas de enfermedades raras para aumentar los datos y realizar tareas de segmentación. Estas diversas aplicaciones subrayan su versatilidad y valor en el avance de la imagenología médica y la predicción de tratamientos.
Los modelos de difusión se destacan particularmente por su capacidad de producir FFC e imágenes por TCO que son virtualmente indistinguibles de las imágenes clínicas reales. Esta capacidad no solo mejora el realismo de las imágenes sintéticas, sino que también admite un entrenamiento más sólido de los modelos de AP.
La generación de imágenes sintéticas aborda varios desafíos críticos en oftalmología. Los conjuntos de datos de entrenamiento reales a menudo sufren limitaciones, como el sesgo de muestra, incluida la subrepresentación de ciertos datos demográficos de pacientes y enfermedades raras. Las imágenes sintéticas pueden aumentar estos conjuntos de datos, reduciendo así la cantidad de imágenes reales necesarias y mejorando el rendimiento del modelo en escenarios más diversos. Este enfoque ayuda a superar los problemas de generalización en IA, donde los modelos entrenados en conjuntos de datos limitados pueden no funcionar bien en tipos de imágenes no representados. Esta falta de generalización es una barrera significativa para la implementación de la IA en entornos del mundo real.
Un problema particularmente apremiante es la subrepresentación de las poblaciones de países de ingresos bajos y medios en los conjuntos de datos públicamente disponibles, lo que podría exacerbar las desigualdades en materia de salud. Los modelos de difusión son prometedores para mitigar esto a través de la generación de FFC a partir de conjuntos de datos limitados, mejorando así la representación equitativa en los datos de entrenamiento.
Además, las imágenes sintéticas han demostrado potencial en los modelos de entrenamiento para enfermedades raras, como la ERH. Se están desarrollando RGA para generar imágenes sintéticas de alta calidad que diversifiquen los conjuntos de datos de entrenamiento de los modelos diagnósticos, mejorando su precisión y confiabilidad.
Modelos de texto a imagen |
La evolución de los MVL ha marcado un salto significativo en el campo del procesamiento del lenguaje natural y la generación de imágenes. Estos modelos, que incorporan tanto la comprensión del lenguaje natural como de los elementos visuales, se entrenan en vastos conjuntos de datos de imágenes emparejados con leyendas textuales. Al integrar las capacidades de los modelos de difusión para la generación de imágenes de alta calidad con la comprensión matizada del lenguaje, los MVL tienen la capacidad de producir imágenes detalladas y contextualmente relevantes a partir de descripciones textuales. Disponibles para uso público, estos modelos han ganado considerable atención por su enfoque innovador para cerrar la brecha entre la entrada textual y la salida visual, mostrando el potencial de combinar lenguaje y visión en IA.
> Casos de uso
Actualmente, los modelos de texto a imagen como DALL-E, Midjourney y StabilityAI tienen conocimiento generalista y son capaces de crear imágenes significativas a partir de indicaciones de texto. Sin embargo, para el uso médico, que es un campo nicho y específico, la generación de imágenes de texto a imagen aún no está completamente desarrollada.
El uso de DALL-E 2 para generar imágenes de rayos X de áreas anatómicas muestra imágenes realistas y bien proporcionadas, pero la estructura detallada de los huesos no es correcta. Cuando se le asignan modalidades más complejas, como TC y RM, el modelo solo muestra imágenes con características que revelan la modalidad; sin embargo, en general, la imagen no tiene sentido. Estos modelos de texto a imagen de gran tamaño y ampliamente disponibles parecen tener algún conocimiento del dominio médico en los datos de entrenamiento, pero no lo suficiente como para crear imágenes médicas realistas. Es probable que se necesiten modelos entrenados en una mayor cantidad de imágenes médicas para generar una conversión de texto a imagen precisa.
Sin embargo, existen algunas características prometedoras de los modelos de conversión de texto a imagen que podrían beneficiar al campo de la oftalmología. Como la mayoría de las enfermedades oftálmicas se asocian con un cambio en la visión y defectos visuales, será útil crear imágenes para demostrar defectos visuales para acompañar descripciones textuales. Esto podría ser útil tanto para los pacientes como para los profesionales de la salud. Por ejemplo, los oftalmólogos podrían generar imágenes para que los médicos clínicos les ayuden a comprender las afecciones neurooftalmológicas, como la oscilopsia en la esclerosis múltiple, el síndrome de Charles Bonnet, el fenómeno de Pulfrich y enfermedades raras que no presentan hallazgos en el examen, como el síndrome de nieve visual. También podrían crear marcadores pronósticos personalizados en forma de imágenes para que los pacientes comprendan cómo puede cambiar su visión si su condición empeora o qué pueden esperar si se inicia el tratamiento. Otra área es mejorar el consentimiento informado para las operaciones. En el caso de procedimientos que cambiarán la apariencia de una persona, como la cirugía de ptosis o la cirugía de descompresión orbitaria, los oftalmólogos pueden generar imágenes personalizadas para mostrarle al paciente cómo podría verse después de la cirugía.
Otros avances incluyen la generación de texto a video. Además de brindar una experiencia más inmersiva, la generación de video puede ser una herramienta de aprendizaje útil para la simulación y el aprendizaje de cirugías. En oftalmología, la práctica a través de la simulación quirúrgica es bien reconocida. La IA generativa podría permitir la generación de operaciones y procedimientos, lo que podría ser una herramienta para el aprendizaje y la simulación.
Desafíos y direcciones futuras |
Si bien la IA generativa tiene un potencial inmenso en la atención médica, ciertos desafíos exigen atención. Los problemas emergentes pueden agruparse en sesgo de datos, seguridad e implementación. Estos aspectos no deben ser pasados por alto por ninguna de las partes interesadas, incluidos académicos y entidades privadas, cuya prevalencia en la investigación de IA ha aumentado.
> Sesgo, inclusión y cuestiones de derechos de autor en el entrenamiento de modelos
Los conjuntos de datos masivos en los que se entrenan los modelos generativos son diversos; sin embargo, esto es difícil de auditar. Los errores de muestreo y sesgos desatendidos en estos conjuntos de datos pueden comprometer la verdad y conducir a una generalización deficiente. Esto puede afectar a los dominios políticos, raciales y socioeconómicos y puede profundizar las desigualdades en la atención médica en términos de accesibilidad y calidad de la atención.
Los grupos minoritarios, los inmigrantes, las poblaciones rurales y las personas con un nivel socioeconómico más bajo son propensos a estos sesgos, ya que están menos representados en las bases de datos en línea y los registros médicos electrónicos. Los esfuerzos por diversificar los conjuntos de datos con diferentes recursos del mundo real presentan otro problema centrado en los derechos de autor. Ha habido demandas legales con respecto al uso de trabajos originales de acceso público para entrenar algoritmos generativos sin autorización.
Esto requiere una mayor transparencia y estándares definidos en el entrenamiento de modelos, junto con una mayor sensibilidad a las fuentes de sesgo. También existe una aparente necesidad de una base legal que regule la curación de conjuntos de datos para fines de entrenamiento preestablecidos.
> Preocupaciones de seguridad con respecto a la integridad de los resultados y la privacidad de los datos
Una preocupación con respecto a la IA generativa es la generación de resultados incorrectos o engañosos, también conocidos como "alucinaciones". Las alucinaciones pueden tener consecuencias negativas en la seguridad y la conciencia del paciente a través de información errónea relacionada con la salud.
Pueden surgir complicaciones más graves si estos productos se utilizan en el apoyo a la toma de decisiones clínicas y la presentación de informes o para capacitar a otros algoritmos diagnósticos e incluso a médicos. Dado que el marco legal actual aún es inmaduro, tampoco está claro quién será considerado responsable de dichos resultados. Es de esperar que esto genere reticencia en los usuarios finales, médicos y pacientes, que son incapaces de discernir las alucinaciones e, incluso, el contenido generado por IA del contenido real.
Para evitar alucinaciones, los modelos de IA requieren ser entrenados con datos de salud completos. Sin embargo, esto plantea un riesgo de violación de seguridad si los datos se comparten con múltiples centros y especialmente con desarrolladores externos. En caso de violaciones de datos de salud en las que se pierde el anonimato o los datos se utilizan para fines distintos a los especificados, pueden surgir resultados negativos, como estrés mental, erosión de la confianza e incluso daños y discriminación en grupos. Por lo tanto, estas cuestiones deben discutirse bajo un paraguas ético para cubrir el consentimiento para el procesamiento de datos y garantizar la autonomía de los pacientes también.
El desarrollo de modelos de IA ha sido rápido; sin embargo, su regulación ha sido lenta. Incluso se ha propuesto cesar todo desarrollo de tecnología hasta que se establezca una regulación más estricta.
> Desafíos para la implementación en el flujo de trabajo
Es crucial identificar qué tareas específicas en la atención médica se pueden mejorar con la IA generativa. Estas herramientas necesitan un posicionamiento específico (prestación de atención o capacitación) con indicaciones y contraindicaciones claras para delinear su uso apropiado y responsabilidad. Sin esas pautas específicas, los usuarios finales pueden confundirse sobre las responsabilidades y desanimarse con el tiempo.
También necesitan canales confiables para la resolución de problemas y la notificación de operaciones adversas para ayudar a los usuarios finales en momentos de necesidad. La facilidad de uso es esencial, ya que un sistema complejo puede sobrecargar al personal que ya enfrenta cargas de trabajo exigentes. La capacitación de los médicos sobre estos modelos y las pautas correspondientes debe considerarse en los planes de estudio médicos y como parte de la capacitación profesional continua.
Conclusión |
El campo de la IA generativa, que está surgiendo rápidamente, tiene un inmenso potencial para el progreso en oftalmología, incluidos avances revolucionarios en el diagnóstico, el pronóstico preciso y la capacitación profesional. Sin embargo, existen ciertos desafíos relacionados con el sesgo de datos, la seguridad y la implementación. Abordarlos a través de conversaciones abiertas entre académicos, el gobierno y la industria es vital para una regulación transparente y efectiva para mitigar los riesgos.
En última instancia, a medida que el mundo digital y el real se cruzan más, se puede mirar a los modelos generativos como el comienzo de un capítulo nuevo y más brillante en la atención médica y la oftalmología.