Introducción |
La retinopatía del prematuro (ROP, por sus siglas en inglés) es una de las principales causas de ceguera infantil, aunque la discapacidad visual se puede prevenir con la detección y el tratamiento adecuados.1–4 En el contexto de los bebés prematuros, la epidemiología de la ROP está directamente relacionada con 2 factores principales: mortalidad neonatal y exposición a oxígeno supra fisiológico para reanimación.1,5
La prevención primaria de la ROP, a través de una titulación cuidadosa del oxígeno, reduce efectivamente la incidencia de retinopatía del prematuro que requiere tratamiento (TR-ROP); sin embargo, existe un delicado equilibrio: una menor fracción de oxígeno inspirado reduce la probabilidad de desarrollar ROP pero en consecuencia, aumenta la probabilidad de mortalidad, y viceversa.5
Para pecar de precavido, se suministra una fracción más alta de oxígeno inspirado y las UCIN son responsables de garantizar que ocurra la prevención secundaria, a través de exámenes de detección oportunos de ROP, para todos los pacientes neonatos en riesgo. 1, 4,5
El riesgo de ceguera se puede reducir, pero no eliminar, con una prevención primaria y secundaria óptima; sin embargo, debido a que los resultados adversos a veces se pueden prevenir, la ROP es una de las principales causas de responsabilidad médico-legal en oftalmología.6,7
Los exámenes de ROP ayudan a identificar los ojos que progresan a TR-ROP para que se puedan proporcionar tratamientos oportunos. Sin embargo, las pautas de detección deben equilibrar el riesgo de pasar por alto casos de TR-ROP con los riesgos de molestias y eventos potencialmente mortales derivados de las mismas pruebas.3–5 En los Estados Unidos, las pruebas se recomiendan sobre la base de criterios demográficos (edad gestacional [EG] <31 semanas o peso al nacer [PN] <1501 g).4 Los exámenes comienzan a las 4 semanas de edad cronológica o a las 31 semanas de edad post menstrual (PMA), lo que ocurra más tarde, y se repiten cada 1 a 2 semanas hasta que la retina esté completamente desarrollada o hasta que la ROP requiera tratamiento.2,4
En promedio, los bebés que cumplen con los criterios de detección reciben de 3 a 8 exámenes, pero menos del 10 % desarrollan TR-ROP. Por lo tanto, las pautas de detección actuales, aunque son muy sensibles, no son específicas y someten a los bebés de bajo riesgo a exámenes que no serían necesarios si se pudiera identificar mejor a los bebés de alto riesgo.1–3,8,9 Usando numerosos modelos de riesgo, los investigadores intentaron agregar especificidad incorporando comorbilidades, pero muchas de ellas son raras o se confunden con PN y EG.10,11
Los modelos con mejor desempeño han sido prometedores pero, hasta ahora, no han sido bien generalizables a poblaciones más grandes y diversas.10, 12, 13 En última instancia, estos modelos no han ganado terreno porque no lograron garantizar una sensibilidad del 100 % o su implementación fue clínicamente poco práctica.10-13
Aquí, se exploró si la especificidad de los modelos de riesgo puede ser mejorada al incluir información biométrica. El aprendizaje profundo (DL) ha sido prometedor para el diagnóstico objetivo de ROP y puede ser útil para la detección.14–19
Trabajos anteriores que utilizaron el algoritmo de estudio de Imágenes e Informática en Retinopatía del Prematuro (Imaging and Informatics in Retinopathy of Prematurity Deep learning (i-ROP DL)) sugirieron que un algoritmo derivado del DL score de gravedad vascular (VSS) puede identificar a los bebés que progresan a TR-ROP semanas antes del tratamiento.16,17
Para abordar esta brecha en el conocimiento, los autores incorporaron el resultado del algoritmo i-ROP DL en un modelo de riesgo predictivo para TR-ROP incidente.
La hipótesis es que agregar información biométrica relevante para ROP puede agregar especificidad a los modelos de riesgo basados solo en variables demográficas sin sacrificar la sensibilidad de detección de TR-ROP.
Métodos |
> Detalles del Estudio de Imágenes e Informática en Retinopatía del Prematuro
Este estudio fue aprobado por las juntas de revisión institucional en el centro coordinador (Oregon Health & Science University) y en cada uno de los 7 centros de estudio (Columbia University, University of Illinois Chicago, William Beaumont Hospital, Children's Hospital Los Angeles, Cedars-Sinai Medical Centro, Universidad de Miami y Weill Cornell Medical Center) y se llevó a cabo de acuerdo con la Declaración de Helsinki. Se obtuvo el consentimiento informado por escrito de los padres de todos los niños inscriptos.
Como parte del estudio de cohorte multicéntrico Imaging and Informatics in Retinopathy of Prematurity (i-ROP), 842 pacientes únicos (PN <1501 g o EG <31 semanas) fueron evaluados varias veces para ROP entre enero de 2012 y julio de 2020. Durante cada examen, se capturaron imágenes del fondo de retina a través de una RetCam (Natus, Pleasanton, CA).
Los pacientes fueron examinados clínicamente al lado de la cama, pero también recibieron diagnósticos de ROP basados en imágenes, que fueron determinados por un consenso de 3 expertos en ROP utilizando la Clasificación International de los criterios de ROP4.
Las imágenes de la retina de los pacientes debían contar con el consenso de expertos que acordaron que su calidad era aceptable para el diagnóstico; 33 imágenes no cumplían este criterio. Las comorbilidades clínicas y la demografía se registraron para los exámenes de todos los pacientes. La significación estadística, según corresponda, fue determinada mediante el uso de la prueba t de 2 muestras de Welch y se definió en un punto de corte de P < .05.
> VSS y preparación de conjuntos de datos
Cada examen ocular estuvo representado por una única imagen RetCam centrada en la mácula, que es aproximadamente el campo de visión de la zona I. Las imágenes fueron analizadas por i-ROP DL, un algoritmo desarrollado para detectar enfermedad plus (una manifestación de ROP grave). 14 i-ROP DL proporcionó una probabilidad sofmax de que cada imagen tenga vasculatura normal, preplus o plus (es decir, se aproximaba a la probabilidad [P()] de cada clase, en la que los valores oscilan entre 0,0 y 1,0 pero deben sumar 1,0 en todas las clases).
A partir de estos valores, se desarrolló un VSS, que va de 1,0 a 9,0: VSS = P (normal) + 5 × P (preplus) + 9 × P (plus). Se ha demostrado que el VSS se correlaciona de forma independiente con una enfermedad más posterior (zona), un estadio más alto y una mayor extensión de la ROP en estadio 3, además de la enfermedad adicional (todos los componentes de los criterios de la Clasificación Internacional de ROP).15–19
Sobre la base de trabajos previos, la ventana de imágenes de 32 a 33 semanas de PMA se identificó como potencialmente predictiva de TR-ROP.16,17 Por lo tanto, se utilizó el primer examen ocular en esta ventana para cada paciente.
Debido a que el objetivo era desarrollar un modelo predictivo (en lugar de diagnóstico), los bebés que fueron diagnosticados con TR-ROP dentro de esta ventana fueron excluidos del conjunto de datos de entrenamiento (específicamente, si desarrollaron TR-ROP dentro de los 7 días del primer examen para ocurrir dentro de la ventana PMA de 32 a 33 semanas).
El conjunto de datos de prueba retenidos (un subconjunto de exámenes del conjunto de datos i-ROP usaron para la evaluación del modelo) contenía a todos los bebés elegibles para la detección de ROP, independientemente de cuándo desarrollaron TR-ROP. Los pacientes fueron mutuamente excluyentes para los conjuntos de datos de entrenamiento (n 5 376 pacientes) y de prueba (n 5 444 pacientes). El conjunto de datos de entrenamiento contenía 58 ojos que eventualmente desarrollaron TR-ROP y 660 ojos que no lo hicieron.
> Desarrollo de modelos de riesgo
PN, EG y VSS se evaluaron mediante la eliminación recursiva de funciones mediante el uso de múltiples modelos de ElasticNet entrenado usando Sci-Kit Learn en Python.20 ElasticNet es un tipo de regresión logística en la que se usa una mezcla de regularización L1 y L2.21
La regularización L1 y L2 es útil para la selección de características y cuando las características colineales y codependientes se incluyen en un modelo, respectivamente, y ayuda a mejorar la generalización del modelo. El parámetro de mezcla de ElasticNet se ajustó mediante una validación cruzada quíntuple mediante el uso de 11 puntos operativos distribuidos uniformemente de 0.0 a 1.0. Los valores de 1.0 y 0.0 son iguales a la regularización L1 y L2, respectivamente.
Debido al desequilibrio de clases (es decir, ojos que finalmente desarrollaron TR-ROP frente a los que no lo hicieron), el área bajo la curva de recuperación de precisión (AUPR) fue la medida principal del rendimiento del modelo en lugar del área bajo la curva característica operativa del receptor (AUROC)) porque el AUROC puede ser demasiado optimista, es decir, un clasificador aleatorio teóricamente tiene un AUROC de 0,5 pero una AUPR solo igual a la proporción de casos positivos dividida por el número total de casos.
> Selección de puntos operativos
El rendimiento del modelo con la AUPR más alta se evaluó a través de la puntuación Fb utilizando una validación cruzada quíntuple en 101 puntos operativos distribuidos uniformemente de 0,00 a 1,00. Mientras que la puntuación F1 (b = 1) intenta equilibrar la proporción de falsos negativos y falsos positivos, el aumento de b (p. ej., F2, F3, etc.) prioriza la minimización de los falsos negativos sobre la minimización de los falsos positivos.
El puntaje F2 se usa comúnmente para priorizar ligeramente la minimización de falsos negativos. Para minimizar los falsos negativos, b se fijó en 4. Se seleccionó el punto operativo medio (menos 1 SD) que maximizaba la puntuación F4 y se usó para evaluar ambos conjuntos de datos de prueba.
> Evaluación del modelo
Luego se evaluó este modelo en el conjunto de datos de prueba i-ROP retenido y en un conjunto de datos independiente que fueron recogidos entre septiembre de 2015 y junio de 2018 de 132 únicos pacientes nacidos en un hospital de Salem, Oregón.
La recopilación de datos y los criterios de exclusión fueron similares a los del conjunto de datos i-ROP. La evaluación retrospectiva de estos los datos se realizó bajo una renuncia de consentimiento de Oregon Health & Junta de Revisión Institucional de la Universidad de Ciencias porque los pacientes son derivados para tratamiento (no ojos individuales), conjunto de datos de prueba se realizaron evaluaciones en el nivel del paciente (es decir, si se predijo si uno o ambos ojos desarrollarían TR-ROP, el paciente fue etiquetado como tal).
El conjunto de datos de la prueba i-ROP contenía 74 pacientes (132 ojos) que eventualmente desarrollaron TR-ROP y 370 pacientes (729 ojos) que no lo hicieron. El conjunto de datos de Salem contenía 7 pacientes (14 ojos) que desarrollaron TR-ROP y 125 pacientes (248 ojos) que no la desarrollaron.
Las principales medidas de resultado fueron la sensibilidad, la especificidad, el valor predictivo positivo (VPP), el valor predictivo negativo (VPN) y sus correspondientes intervalos de confianza (IC) del 95 %, evaluados de forma independiente mediante el método conservador de Clopper-Pearson, como lo sugieren Ying y colaboradores.22
> Análisis Secundario de Positivo Casos
En un análisis secundario, el VSS máximo entre los ojos para pacientes en el conjunto de datos de la prueba i-ROP que dio positivo se manejó a lo largo del tiempo. Sobre la base de trabajos anteriores, el cambio en VSS a lo largo del tiempo para los pacientes que dieron positivo y finalmente desarrollaron TR-ROP se comparó con el de aquellos que dieron positivo pero no desarrollaron TR-ROP. La significancia estadística se estableció en un punto de corte de P= .05 y se determinó mediante un análisis de varianza y una prueba t de 2 muestras de Welch.
Resultados |
> Conjuntos de datos
En ambos conjuntos de datos, los ojos que desarrollaron TR-ROP tendieron a tener VSS más altos a las 32 a 33 semanas, y los bebés que requirieron tratamiento en 1 o ambos ojos tendieron a tener PN y EG más bajos.
> Desarrollo del Modelo de Riesgo
ElasticNet se ajustó a través de una validación cruzada quíntuple para todas las combinaciones PN, EG y VSS. Un modelo de ElasticNet con una relación L1 de 0,4, utilizando los predictores EG y VSS, tuvo la AUPR más alta (0,35 ± 0,11). Un clasificador aleatorio tendría una AUPR aproximadamente igual a 0,08 (la proporción de casos de TR ROP en el conjunto de datos de entrenamiento).
El punto de operación se ajustó para aumentar la sensibilidad (para que se identificaran todos los casos de TR-ROP) antes de evaluar el rendimiento en los conjuntos de datos de prueba.
La puntuación F4 máxima ± DE (0,74 ± 0,12) se produjo en un punto de operación de 0,33 ± 0,08. Para aumentar aún más la sensibilidad, este punto de operación se redujo en 1 SD a 0,25
> Evaluación del modelo
Luego se evaluó el modelo en el conjunto de datos de prueba retenidos de la base de datos i-ROP e identificó a todos infantes que eventualmente requirieron tratamiento (sensibilidad: 100,0% [IC 95,1%–100,0%]; VPP: 28,1% [IC 22.8%–34.0%]) e identificando correctamente a casi la mitad de los bebés que nunca lo haría (especificidad: 48,9% [IC 43,7%-54,1%]; VAN (valor predictivo negativo): 100,0% [IC 98,0%–100,0%]).
Para los bebés que tenían TR-ROP desarrollada, el promedio número de semanas ± DE a TR-ROP el diagnóstico fue de 3,7 ± 2,7 semanas (rango: 0,1–11,0 semanas) después de la predicción.
El modelo también se evaluó en un conjunto de datos de prueba independientes recopilados de un hospital ubicado en Salem, Oregón. De nuevo, correctamente identificó a todos los bebés que eventualmente requirieron tratamiento (sensibilidad: 100,0 % [IC 59,0 %–100,0 %]; VPP: 22,6 % [IC 9,6 %–41,1 %]), y la especificidad aumentó al 80,8% (IC 72,8%–87,3%) (VAN: 100,0% [IC 96,4%–100,0%]). El tiempo promedio ± Diagnóstico SD a TR-ROP, después predicción, fue de 3,4 ± 2,1 semanas (rango: 0,1–5,0 semanas).
> Análisis Secundario de Casos Positivos
Entre las predicciones positivas en el conjunto de datos de la prueba i ROP, el VSS promedio se manejó a lo largo del tiempo. Los pacientes que desarrollaron TR ROP parecieron tener un mayor cambio en el VSS promedio en comparación con aquellos que dieron positivo pero nunca requirieron tratamiento (P # 0.05), lo que sugiere que la especificidad podría mejorarse aún más analizando el cambio en el VSS a lo largo del tiempo.
Discusión |
Los autores probaron si la incorporación de una evaluación basada en inteligencia artificial de la gravedad vascular podría mejorar el rendimiento de modelos de predicción del riesgo de ROP.
Encontraron que usando solo EG y VSS (obtenido durante el examen de un solo ojo a las 32 a 33 semanas de edad post menstrual) puede identificar a todos los bebés que están en riesgo para desarrollar TR-ROP casi 1 mes antes del diagnóstico y simultáneamente descartar más de la mitad de la población de bajo riesgo. Con una mayor validación, la implementación de este modelo podría reducir el número de ROP, los exámenes y el estrés fisiológico en lactantes de bajo riesgo.
Finalmente, el monitoreo cuantitativo de la severidad vascular puede conducir a un diagnóstico más consistente de TR-ROP en bebés que están en el nivel de más alto riesgo, minimizando así el riesgo general de resultados adversos.
Esta hipótesis se basó en trabajos previos que revelaron que un VSS derivado de DL puede identificar ojos de alto riesgo tan pronto como 1 mes antes del diagnóstico de TR-ROP.16, 17 Esto resultó ser exacto porque la AUPR del VSS en la predicción de TR-ROP fue de 0,07 puntos mayor que los modelos univariados PN o EG, o la combinación de ambos. Esto sugirió que la predicción diagnóstica podría ser mayor si una combinación de VSS y EG y/ o PN fueran a ser utilizados en un modelo de riesgo.
Después de optimizar el punto de operación del algoritmo de mayor rendimiento (EG + VSS) para aumentar la sensibilidad (para evitar pasar por alto casos de TR-ROP), el modelo identificó correctamente al 100 % de los bebés que desarrollaron TR-ROP en 2 poblaciones separadas.
También se debe considerar la población de destino y el impacto potencial del VPP y el VAN en cada población objetivo. En el conjunto de datos de i-ROP, en consonancia con una población de bebés de centros médicos académicos (que pueden tener un mayor riesgo que los de la UCIN promedio), la especificidad del modelo fue del 48,9 %, en comparación con el 80,8 % en el hospital Salem, Oregón, donde la incidencia de TR ROP fue menor.
Incluso en los resultados emergentes de mayor riesgo sugieren que, a las 32 o 33 semanas PMA, la mitad de la población podría identificarse con precisión como de bajo riesgo y ya no requiere exámenes frecuentes. La población de Salem, Oregón, sugiere que esta proporción puede ser sustancialmente mayor en los programas comunitarios de detección de ROP.
También se descubrió que usar el VSS para controlar la progresión de la enfermedad puede mejorar aún más la detección temprana de TR-ROP incidente en lactantes que dan positivo. Esto es en consonancia con el trabajo anterior revelando que cuantitativamente el control de la gravedad vascular puede ser útil no sólo para la detección, sino también para el diagnóstico cuantitativo y determinar si la enfermedad es estable, progresando o retrocediendo. 14-19 Este podría sentar las bases para un nuevo modelo de cribado de ROP en el que los bebés de bajo riesgo reciben menos exámenes y bebés de alto riesgo reciben antes y con mayor precisión estudios diagnósticos.
Hasta este punto, vale la pena investigar los roles de exposición al oxígeno, hemorragia intraventricular, sepsis, enterocolitis necrotizante, trombocitopenia y otro riesgo previamente asociado factores para seguir aumentando especificidad, aunque pueden complicar este modelo y/o introducir efectos de confusión. Este modelo también puede ser más fácil de implementar que el riesgo de ROP en modelos anteriores.
El rendimiento del modelo EG + VSS es comparable a las mediciones iniciales de rendimiento del modelo ROP del Hospital de Niños de Filadelfia, que utilizó una combinación de peso PN + EG + ganancia de peso para predecir ocurrencias futuras de ROP tipo II y TR-ROP.12 Ambos modelos lograron una sensibilidad del 100 % en predecir TR-ROP y tuvo similar especificidad.
Sin embargo, cuando el Hospital de Niños de Filadelfia aplicó el modelo ROP a una cohorte externa de validación de niños admitidos en 30 hospitales en América del Norte, el punto de operación tuvo que bajarse para lograr una sensibilidad del 100,0%, en consecuencia, reduciendo la especificidad a sólo el 6,8%, que es demasiado bajo para tener un impacto sustantivo en la detección de protocolos.13
Otra ventaja del modelo propuesto es que sólo requiere datos de un solo examen. En general, la EG se conoce con alta precisión, excepto en países de bajos y medianos ingresos (LMIC), donde las citas de las embarazadas pueden ser de menor confianza. En estos entornos, es posible que valga la pena explorar un modelo que utiliza PN + VSS en su lugar porque sugiere casi comparable rendimiento.
Sin embargo, también se requiere una fotografía de fondo de retina obtenida a las 32 a 33 semanas de PMA, y aquí radica la principal barrera para la implementación en este momento. Las imágenes no son parte del estándar de atención, y las cámaras digitales de fondo de ojo pueden ser costosas, por lo que no se obtienen imágenes con frecuencia. 2,4
A medida que las cámaras bajan de precio y cámaras basadas en teléfonos inteligentes convertirse en alternativas viables, puede ser que los estudios futuros que validen este concepto revelan que el beneficio clínico de detección más temprana de bebes de alto riesgo, junto con la reducción de carga de detección, supera el costo de implementar imágenes de rutina.23–25 Sin embargo, esto sigue siendo una barrera para la implementación y la principal desventaja de este método. Además, es probable que este modelo no se generalice bien "de forma inmediata" a poblaciones diferentes de la población de cribado de América del Norte.
En muchos países de ingresos bajos y medianos, la epidemiología y los factores de riesgo demográficos son diferentes, y sería necesario reajustar el modelo sobre la base de la epidemiología de la enfermedad local.9,26,27 Por ejemplo, los bebés de alto riesgo podrían ser menos prematuros y un punto temporal diferente PMA de 32 a 33 semanas puede ser más predictivo.
Sin embargo, existe evidencia de que el sistema i-ROP DL diagnostica con precisión TR-ROP en un programa de telemedicina ROP de la India, lo que sugiere que la tecnología es efectiva en ese contexto y, por lo tanto, puede traducirse.19
De todos modos, este modelo tiene potencial para crear un cambio de paradigma, transición de oftalmología dirigida a exámenes de detección de ROP dirigidos por neonatología, porque las únicas entradas requeridas son EG y una fotografía de fondo de ojo (no un examen oftalmoscópico completo). Tal cambio de paradigma podría, además de reducir el número de exámenes necesarios para bebés de bajo riesgo, reducir drásticamente el número de exámenes que necesita un oftalmólogo.
Esto podría conducir a un mejor uso de los escasos recursos, especialmente en las regiones rurales y países de ingresos bajos y medianos, donde se trata de un problema.26,27
Conclusiones |
Los autores han entrenado y optimizado un modelo interpretable, parsimonioso para la predicción de TR-ROP. En 2 cohortes de validación separadas, demostró que un solo examen a las 32 a 33 semanas desde la FUM detectó a todos los bebés que eventualmente desarrollaron TR-ROP y más de la mitad de los que no lo hicieron.
La implementación de este modelo podría conducir a significativamente menos exámenes de ROP para bebés de bajo riesgo, mejor uso de recursos para la detección de ROP y el reconocimiento más temprano de progresión de la enfermedad TR-ROP. Trabajos futuros validarán este concepto en países de ingresos medianos y bajos, donde el valor agregado potencial puede ser aún mayor dado el aumento de la prevalencia de enfermedades y escasez de recursos, con el objetivo de reducir o eliminar la ceguera por ROP.
Comentario |
La retinopatía del prematuro es una de las principales causas de ceguera infantil. La detección y el tratamiento reducen el riesgo, pero requieren múltiples exámenes de los lactantes, la mayoría de los cuales no desarrollarán enfermedad grave. Trabajos previos sugirieron que la inteligencia artificial puede detectar retinopatía del prematuro que requiere tratamiento antes del diagnóstico clínico.
El objetivo fue construir un modelo de riesgo que combinara la inteligencia artificial con la demografía clínica para reducir la cantidad de exámenes sin perder casos de TR-ROP. El modelo de edad gestacional + VSS tuvo el rendimiento más alto.
Usando un solo examen, este modelo identificó a todos los bebés que desarrollaron TR-ROP, en promedio, cerca de 1 mes antes del diagnóstico con una especificidad de moderada a alta. Este enfoque podría conducir a una identificación más temprana de ROP grave, reduciendo el diagnóstico y tratamiento tardío reduciendo la cantidad de exámenes y el estrés innecesario para los bebés de bajo riesgo.
Resumen y comentario objetivo: Dra. María José Chiolo