Un modelo de IA entrenado con datos clínicos

¿Puede la inteligencia artificial predecir la mortalidad en los años posteriores a una fractura de cadera?

Ciertos biomarcadores pueden ser particularmente útiles

Autor/a: George Asrian, Abhinav Suri, Chamith Rajapakse

Fuente: Machine learning-based mortality prediction in hip fracture patients using biomarkers

Un nuevo estudio publicado en el Journal of Orthopaedic Research indica que un modelo basado en inteligencia artificial entrenado con datos básicos de análisis de sangre y de laboratorio, así como con datos demográficos básicos, puede predecir el riesgo de muerte de un paciente en 1, 5 y 10 años de sufrir una fractura de cadera.

En el análisis de 3.751 registros de pacientes con fractura de cadera de dos sistemas de bases de datos hospitalarios en el Centro Médico Beth Israel Deaconess en Boston, la tasa de mortalidad al año para todos los pacientes fue del 21% y para aquellos de 80 años o más fue del 29%. Después de evaluar 10 modelos diferentes de clasificación de aprendizaje automático, los investigadores descubrieron que el modelo LightGBM tenía el rendimiento de predicción de mortalidad a 1 año más preciso.

La edad, los niveles de azúcar en sangre, ciertas características de los glóbulos rojos, los niveles de glóbulos blancos, los niveles de nitrógeno ureico, el recuento de plaquetas, los niveles de calcio y el tiempo de coagulación sanguínea fueron los factores con mayor poder predictivo. La mayoría de estos también estaban entre las 10 características principales de los modelos de predicción de mortalidad a 5 y 10 años de LightGBM.

"Nuestros modelos muestran que ciertos biomarcadores pueden ser particularmente útiles para caracterizar el riesgo de malos resultados después de fracturas de cadera", dijo el autor correspondiente George Asrian, de la Universidad de Pensilvania.


Introducción

La fractura de cadera es una afección común con un alto grado de morbilidad y mortalidad asociada. En los EE. UU. se producen más de 300 000 fracturas de cadera cada año, lo que representa más del 40 % de los ingresos a residencias de ancianos relacionados con fracturas y el 70 % (12 mil millones de dólares) de los costos directos en la atención de fracturas. Dentro de 1 año de la lesión, el 20 %. El 30% de los pacientes muere y el 50% pierde la capacidad de caminar.

La probabilidad de fractura, que ocurre más comúnmente después de una caída, aumenta exponencialmente con la edad, lo que la convierte en un problema especialmente importante a abordar en una población que envejece. Los factores de riesgo incluyen la edad, la osteoporosis, una mayor masa corporal, la disminución de la percepción visual, la inactividad física, la debilidad muscular, enfermedades crónicas que aumentan el riesgo de desequilibrio, como la artritis y la enfermedad de Parkinson, y el deterioro cognitivo.


Resumen

El propósito de este estudio retrospectivo fue evaluar si la mortalidad después de una fractura de cadera se puede predecir mediante un modelo de aprendizaje automático entrenado con datos básicos de análisis de sangre y laboratorio, así como datos demográficos básicos. Además, el propósito fue identificar las variables clave más asociadas con la mortalidad a 1, 5 y 10 años e investigar su importancia clínica.

Los datos de entrada incluyeron 3751 registros de pacientes con fractura de cadera obtenidos de la base de datos Medical Information Mart for Intensive Care IV, que proporcionó registros de sistemas de bases de datos hospitalarios en el Centro Médico Beth Israel Deaconess. La tasa de mortalidad a 1 año para todos los pacientes estudiados fue del 21 % y para los mayores de 80 años fue del 29 %.

Evaluamos 10 modelos diferentes de clasificación de aprendizaje automático y descubrimos que LightGBM tiene el rendimiento de predicción de mortalidad a 1 año más sólido, con una precisión del 81 %, un AUC de 0,79, una sensibilidad de 0,34 y una especificidad de 0,98 en el conjunto de pruebas.

Las características más ponderadas del modelo de 1 año incluyeron:

  • Edad
  • Glucemia
  • Distribución de glóbulos rojos
  • Concentración media de hemoglobina corpuscular
  • Glóbulos blancos
  • Nitrógeno ureico
  • Tiempo de protrombina
  • Recuento de plaquetas
  • Niveles de calcio
  • Tiempo parcial de tromboplastina

La mayoría de estos también estaban entre las 10 características principales de los modelos de predicción LightGBM de 5 y 10 años entrenados. Las pruebas de estos biomarcadores de alto rango en nuevos pacientes con fractura de cadera pueden ayudar a los médicos a evaluar la probabilidad de malos resultados para los pacientes con fractura de cadera, y la investigación adicional puede utilizar estos biomarcadores para desarrollar una puntuación de riesgo de mortalidad.


Figura
: Gráfico de barras que muestra los valores de importancia de las características para las 10 características principales utilizando el modelo de predicción de mortalidad de 1 año LightGBM entrenado en las 156 características. Debajo del gráfico, diferencias porcentuales de los valores promedio de cada variable para la cohorte que murió dentro de 1 año en comparación con la cohorte que sobrevivió 1 año, calculadas como ([1]/[0] − 1 × 100%) . MCHC: concentración media de hemoglobina corpuscular; PT: tiempo de protrombina; PTT: tiempo de tromboplastina parcial; RDW: ancho de distribución de los glóbulos rojos.


Discusión

En general, hemos demostrado que es posible desarrollar un modelo de aprendizaje automático de alta precisión que pueda estimar la mortalidad a 1 año en pacientes con fractura de cadera en este conjunto de datos. Es posible aislar la mayoría de los biomarcadores y atributos demográficos y volver a entrenar un modelo de predicción solo en las 10 características de mayor rango para producir un modelo de precisión comparable (dentro del 1%).

Se probaron muchos modelos para identificar el algoritmo de clasificación más apropiado para la predicción de la mortalidad por fractura de cadera. El modelo de predicción LightGBM funcionó mejor con la precisión equilibrada y los valores AUC más sólidos. LightGBM es un algoritmo de impulso que implica entrenar múltiples modelos en secuencia, y cada uno muestra una mejora con respecto a su predecesor.

Como han indicado muchas fuentes bibliográficas anteriores, la edad es un importante predictor de mortalidad en los individuos debido al deterioro de los mecanismos de reparación, la respuesta inmunológica (crítica para defenderse contra la infección bacteriana) y la movilidad.

Se descubrió que la segunda variable más importante, la glucemia, también lo era. Si bien no hubo una diferencia media entre los pacientes con mortalidad de 1 año y los que sobrevivieron >1 año, la glucosa en sangre puede proporcionar una medida adicional de la carga de enfermedad en los ancianos. Aquellos con demasiada glucosa pueden sufrir secuelas de diabetes que incluyen mala curación y movilidad. Aquellos con muy poca glucosa pueden sufrir caídas adicionales debido a estar en un estado de hipoglucemia y pueden considerarse un riesgo de caída (lo que limita aún más la movilidad). Los marcadores de salud hematológica también resultaron útiles.

Otros marcadores destacados que se incluyeron entre las 10 variables más importantes fueron el nitrógeno ureico (un marcador de la función renal general que se puede utilizar para determinar si los individuos tienen depleción de volumen, posiblemente debido a sepsis), PT/PTT y recuento de plaquetas, que puede determinar si los individuos mantienen su capacidad de coagulación y el calcio sérico que se ha identificado como predictor de mortalidad en pacientes con osteoporosis.

Conclusiones

Las fracturas de cadera son un evento grave que puede provocar la muerte dentro del primer año después del evento en aproximadamente el 21 % de los pacientes de todas las edades y hasta el 29 % de los pacientes mayores de 80 años. Si bien la edad puede ser la variable más importante que predice malos resultados en los pacientes con fractura de cadera, el rendimiento de los modelos entrenados en este proyecto muestra que los biomarcadores también desempeñan un papel importante en la determinación del riesgo.

MCHC: concentración media de hemoglobina corpuscular; PT: tiempo de protrombina; PTT: tiempo de tromboplastina parcial; RDW: ancho de distribución de los glóbulos rojos en pacientes con fracturas de cadera pueden ayudar a evaluar el riesgo de mortalidad de los pacientes.

LightGBM es una herramienta sólida y poderosa para predecir la mortalidad en períodos de tiempo cortos y largos, lo que permite un análisis simple de las variables de entrada más importantes. Con modelos adicionales que utilicen conjuntos de datos más amplios y bien equilibrados, puede ser posible desarrollar una puntuación de riesgo formal para pacientes con fractura de cadera que puedan utilizar los médicos, utilizando LightGBM y las variables descritas anteriormente.