Mediante un único examen | 09 MAY 22

Predicción del riesgo de retinopatía severa del prematuro

Uso de información biométrica para agregar especificidad a los modelos de riesgo sin disminuir la sensibilidad de detección en casos de retinopatía severa del prematuro
Autor/a: Aaron S. Coyner, Jimmy S. Chen, Praveer Singh, Robert L. Schelonka, Brian K. Jordan, Cindy T. McEvoy, Jamie E. Anderson y otros. Pediatrics 2021;148(6):e2021051772
INDICE:  1. Texto principal | 2. Referencia bibliográfica
Texto principal
Introducción 

La retinopatía del prematuro (ROP, por sus siglas en inglés) es una de las principales causas de ceguera infantil, aunque la discapacidad visual se puede prevenir con la detección y el tratamiento adecuados.1–4 En el contexto de los bebés prematuros, la epidemiología de la ROP está directamente relacionada con 2 factores principales: mortalidad neonatal y exposición a oxígeno supra fisiológico para reanimación.1,5

La prevención primaria de la ROP, a través de una titulación cuidadosa del oxígeno, reduce efectivamente la incidencia de retinopatía del prematuro que requiere tratamiento (TR-ROP); sin embargo, existe un delicado equilibrio: una menor fracción de oxígeno inspirado reduce la probabilidad de desarrollar ROP pero en consecuencia, aumenta la probabilidad de mortalidad, y viceversa.5

Para pecar de precavido, se suministra una fracción más alta de oxígeno inspirado y las UCIN son responsables de garantizar que ocurra la prevención secundaria, a través de exámenes de detección oportunos de ROP, para todos los pacientes neonatos en riesgo. 1, 4,5

El riesgo de ceguera se puede reducir, pero no eliminar, con una prevención primaria y secundaria óptima; sin embargo, debido a que los resultados adversos a veces se pueden prevenir, la ROP es una de las principales causas de responsabilidad médico-legal en oftalmología.6,7

Los exámenes de ROP ayudan a identificar los ojos que progresan a TR-ROP para que se puedan proporcionar tratamientos oportunos. Sin embargo, las pautas de detección deben equilibrar el riesgo de pasar por alto casos de TR-ROP con los riesgos de molestias y eventos potencialmente mortales derivados de las mismas pruebas.3–5 En los Estados Unidos, las pruebas se recomiendan sobre la base de criterios demográficos (edad gestacional [EG] <31 semanas o peso al nacer [PN] <1501 g).4 Los exámenes comienzan a las 4 semanas de edad cronológica o a las 31 semanas de edad post menstrual (PMA), lo que ocurra más tarde, y se repiten cada 1 a 2 semanas hasta que la retina esté completamente desarrollada o hasta que la ROP requiera tratamiento.2,4

En promedio, los bebés que cumplen con los criterios de detección reciben de 3 a 8 exámenes, pero menos del 10 % desarrollan TR-ROP. Por lo tanto, las pautas de detección actuales, aunque son muy sensibles, no son específicas y someten a los bebés de bajo riesgo a exámenes que no serían necesarios si se pudiera identificar mejor a los bebés de alto riesgo.1–3,8,9 Usando numerosos modelos de riesgo, los investigadores intentaron agregar especificidad incorporando comorbilidades, pero muchas de ellas son raras o se confunden con PN y EG.10,11

Los modelos con mejor desempeño han sido prometedores pero, hasta ahora, no han sido bien generalizables a poblaciones más grandes y diversas.10, 12, 13 En última instancia, estos modelos no han ganado terreno porque no lograron garantizar una sensibilidad del 100 % o su implementación fue clínicamente poco práctica.10-13

Aquí, se exploró si la especificidad de los modelos de riesgo puede ser mejorada al incluir información biométrica. El aprendizaje profundo (DL) ha sido prometedor para el diagnóstico objetivo de ROP y puede ser útil para la detección.14–19

Trabajos anteriores que utilizaron el algoritmo de estudio de Imágenes e Informática en Retinopatía del Prematuro (Imaging and Informatics in Retinopathy of Prematurity Deep learning (i-ROP DL)) sugirieron que un algoritmo derivado del DL score de gravedad vascular (VSS) puede identificar a los bebés que progresan a TR-ROP semanas antes del tratamiento.16,17

Para abordar esta brecha en el conocimiento, los autores incorporaron el resultado del algoritmo i-ROP DL en un modelo de riesgo predictivo para TR-ROP incidente.

La hipótesis es que agregar información biométrica relevante para ROP puede agregar especificidad a los modelos de riesgo basados ​​solo en variables demográficas sin sacrificar la sensibilidad de detección de TR-ROP.

Métodos

> Detalles del Estudio de Imágenes e Informática en Retinopatía del Prematuro

Este estudio fue aprobado por las juntas de revisión institucional en el centro coordinador (Oregon Health & Science University) y en cada uno de los 7 centros de estudio (Columbia University, University of Illinois Chicago, William Beaumont Hospital, Children's Hospital Los Angeles, Cedars-Sinai Medical Centro, Universidad de Miami y Weill Cornell Medical Center) y se llevó a cabo de acuerdo con la Declaración de Helsinki. Se obtuvo el consentimiento informado por escrito de los padres de todos los niños inscriptos.

Como parte del estudio de cohorte multicéntrico Imaging and Informatics in Retinopathy of Prematurity (i-ROP), 842 pacientes únicos (PN <1501 g o EG <31 semanas) fueron evaluados varias veces para ROP entre enero de 2012 y julio de 2020. Durante cada examen, se capturaron imágenes del fondo de retina a través de una RetCam (Natus, Pleasanton, CA).

Los pacientes fueron examinados clínicamente al lado de la cama, pero también recibieron diagnósticos de ROP basados ​​en imágenes, que fueron determinados por un consenso de 3 expertos en ROP utilizando la Clasificación International de los criterios de ROP4.

Las imágenes de la retina de los pacientes debían contar con el consenso de expertos que acordaron que su calidad era aceptable para el diagnóstico; 33 imágenes no cumplían este criterio. Las comorbilidades clínicas y la demografía se registraron para los exámenes de todos los pacientes. La significación estadística, según corresponda, fue determinada mediante el uso de la prueba t de 2 muestras de Welch y se definió en un punto de corte de P < .05.

> VSS y preparación de conjuntos de datos 

Cada examen ocular estuvo representado por una única imagen RetCam centrada en la mácula, que es aproximadamente el campo de visión de la zona I. Las imágenes fueron analizadas por i-ROP DL, un algoritmo desarrollado para detectar enfermedad plus (una manifestación de ROP grave). 14 i-ROP DL proporcionó una probabilidad sofmax de que cada imagen tenga vasculatura normal, preplus o plus (es decir, se aproximaba a la probabilidad [P()] de cada clase, en la que los valores oscilan entre 0,0 y 1,0 pero deben sumar 1,0 en todas las clases).

A partir de estos valores, se desarrolló un VSS, que va de 1,0 a 9,0: VSS = P (normal) +  5 × P (preplus)  + 9 × P (plus).  Se ha demostrado que el VSS se correlaciona de forma independiente con una enfermedad más posterior (zona), un estadio más alto y una mayor extensión de la ROP en estadio 3, además de la enfermedad adicional (todos los componentes de los criterios de la Clasificación Internacional de ROP).15–19

Sobre la base de trabajos previos, la ventana de imágenes de 32 a 33 semanas de PMA se identificó como potencialmente predictiva de TR-ROP.16,17 Por lo tanto, se utilizó el primer examen ocular en esta ventana para cada paciente.

Debido a que el objetivo era desarrollar un modelo predictivo (en lugar de diagnóstico), los bebés que fueron diagnosticados con TR-ROP dentro de esta ventana fueron excluidos del conjunto de datos de entrenamiento (específicamente, si desarrollaron TR-ROP dentro de los 7 días del primer examen para ocurrir dentro de la ventana PMA de 32 a 33 semanas).

El conjunto de datos de prueba retenidos (un subconjunto de exámenes del conjunto de datos i-ROP usaron para la evaluación del modelo) contenía a todos los bebés elegibles para la detección de ROP, independientemente de cuándo desarrollaron TR-ROP. Los pacientes fueron mutuamente excluyentes para los conjuntos de datos de entrenamiento (n 5 376 pacientes) y de prueba (n 5 444 pacientes). El conjunto de datos de entrenamiento contenía 58 ojos que eventualmente desarrollaron TR-ROP y 660 ojos que no lo hicieron.

> Desarrollo de modelos de riesgo

PN, EG y VSS se evaluaron mediante la eliminación recursiva de funciones mediante el uso de múltiples modelos de ElasticNet entrenado usando Sci-Kit Learn en Python.20 ElasticNet es un tipo de regresión logística en la que se usa una mezcla de regularización L1 y L2.21

La regularización L1 y L2 es útil para la selección de características y cuando las características colineales y codependientes se incluyen en un modelo, respectivamente, y ayuda a mejorar la generalización del modelo. El parámetro de mezcla de ElasticNet se ajustó mediante una validación cruzada quíntuple mediante el uso de 11 puntos operativos distribuidos uniformemente de 0.0 a 1.0. Los valores de 1.0 y 0.0 son iguales a la regularización L1 y L2, respectivamente.

Debido al desequilibrio de clases (es decir, ojos que finalmente desarrollaron TR-ROP frente a los que no lo hicieron), el área bajo la curva de recuperación de precisión (AUPR) fue la medida principal del rendimiento del modelo en lugar del área bajo la curva característica operativa del receptor (AUROC)) porque el AUROC puede ser demasiado optimista, es decir, un clasificador aleatorio teóricamente tiene un AUROC de 0,5 pero una AUPR solo igual a la proporción de casos positivos dividida por el número total de casos.

> Selección de puntos operativos

El rendimiento del modelo con la AUPR más alta se evaluó a través de la puntuación Fb utilizando una validación cruzada quíntuple en 101 puntos operativos distribuidos uniformemente de 0,00 a 1,00. Mientras que la puntuación F1 (b = 1) intenta equilibrar la proporción de falsos negativos y falsos positivos, el aumento de b (p. ej., F2, F3, etc.) prioriza la minimización de los falsos negativos sobre la minimización de los falsos positivos.

El puntaje F2 se usa comúnmente para priorizar ligeramente la minimización de falsos negativos. Para minimizar los falsos negativos, b se fijó en 4. Se seleccionó el punto operativo medio (menos 1 SD) que maximizaba la puntuación F4 y se usó para evaluar ambos conjuntos de datos de prueba.

> Evaluación del modelo

Luego se evaluó este modelo en el conjunto de datos de prueba i-ROP retenido y en un conjunto de datos independiente que fueron recogidos entre septiembre de 2015 y junio de 2018 de 132 únicos pacientes nacidos en un hospital de Salem, Oregón.

La recopilación de datos y los criterios de exclusión fueron similares a los del conjunto de datos i-ROP. La evaluación retrospectiva de estos los datos se realizó bajo una renuncia de consentimiento de Oregon Health & Junta de Revisión Institucional de la Universidad de Ciencias porque los pacientes son derivados para tratamiento (no ojos individuales), conjunto de datos de prueba se realizaron evaluaciones en el nivel del paciente (es decir, si se predijo si uno o ambos ojos desarrollarían TR-ROP, el paciente fue etiquetado como tal).

El conjunto de datos de la prueba i-ROP contenía 74 pacientes (132 ojos) que eventualmente desarrollaron TR-ROP y 370 pacientes (729 ojos) que no lo hicieron. El conjunto de datos de Salem contenía 7 pacientes (14 ojos) que desarrollaron TR-ROP y 125 pacientes (248 ojos) que no la desarrollaron.

Las principales medidas de resultado fueron la sensibilidad, la especificidad, el valor predictivo positivo (VPP), el valor predictivo negativo (VPN) y sus correspondientes intervalos de confianza (IC) del 95 %, evaluados de forma independiente mediante el método conservador de Clopper-Pearson, como lo sugieren Ying y colaboradores.22

> Análisis Secundario de Positivo Casos

En un análisis secundario, el VSS máximo entre los ojos para pacientes en el conjunto de datos de la prueba i-ROP que dio positivo se manejó a lo largo del tiempo. Sobre la base de trabajos anteriores, el cambio en VSS a lo largo del tiempo para los pacientes que dieron positivo y finalmente desarrollaron TR-ROP se comparó con el de aquellos que dieron positivo pero no desarrollaron TR-ROP. La significancia estadística se estableció en un punto de corte de P= .05 y se determinó mediante un análisis de varianza y una prueba t de 2 muestras de Welch.

Resultados
 

Comentarios

Para ver los comentarios de sus colegas o para expresar su opinión debe ingresar con su cuenta de IntraMed.

AAIP RNBD
Términos y condiciones de uso | Política de privacidad | Todos los derechos reservados | Copyright 1997-2024