Discusion sobre la utilidad de los ajustes para las comparaciones multiples

Introducción

Diversos problemas analíticos en las investigaciones derivan de la multiplicidad. Algunos investigadores agregan análisis no planeados, examinan criterios de valoración (CV) adicionales, manipulan comparaciones grupales o realizan muchos análisis de subgrupos. Miles de comparaciones potenciales pueden emanar de un estudio, en cuyo caso muchos resultados significativos serían esperados sólo por azar. Algunos estadistas proponen ajustes para resolverlo, pero desafortunadamente estos ajustes suelen crear más problemas.

Los problemas de multiplicidad tienen varios orígenes. En este trabajo, los autores abordan los CV y los tratamientos múltiples. La multiplicidad implica problemas tanto para los investigadores como para los lectores. En primer lugar, los investigadores deberían informar todas las comparaciones implementadas, pero a veces esconden el análisis completo, con lo que perjudican la comprensión del lector. En segundo lugar, si los investigadores informar todas las comparaciones, los estadistas ofrecen ajustes para explicar comparaciones múltiples. Los investigadores precisan saber si deberían usar dichos ajustes y, los lectores, si deberían esperarlos.

La multiplicidad puede incrementar el error en las pruebas de significación. El error de tipo 1 (alfa), bajo la hipótesis de falta de asociación entre 2 factores, indica la probabilidad de que la asociación observada proveniente de los datos disponibles pueda atribuirse al azar. Además, notifica al lector sobre la probabilidad de una conclusión falsa positiva. El problema surge cuando se prueban múltiples asociaciones independientes respecto de la significación. Si d = es el número de comparaciones, entonces la probabilidad de que al menos una asociación resulte significativa es 1-(1-alfa)d. En general, se fija alfa en 0.05. Entonces, si se estudian 10 asociaciones independientes y se asume la hipótesis nula de falta de asociación en las 10, la probabilidad de al menos un resultado significativo es 0.40 (1-(1-0.05)10). La probabilidad de un falso positivo para cada comparación es 0.05 (5%) se estudie uno o un millón.

Solución propuesta
La mayoría de los estadistas podrían recomendar la reducción del número de comparaciones como solución a la multiplicidad. Algunos sugieren realizar ajustes para que la probabilidad de un hallazgo falso positivo iguale a alfa luego de realizar d comparaciones. Los autores suelen atribuir el método a Bonferroni y plantean que para evaluar comparaciones de un estudio a nivel alfa, todas las comparaciones deben realizarse al nivel de significación alfa/d. Entonces, para alfa = 0.05, con 10 comparaciones, cada prueba debería ser significativa a nivel de 0.005. En forma análoga, algunos investigadores conservan el umbral alfa pero multiplican cada valor de p por d. Por lo tanto, con 10 comparaciones, una p = 0.02 arrojaría un valor ajustado de p = 0.2. El ajuste de Bonferroni suele abordar la hipótesis falsa; exagera el error beta y reduce, de este modo, el poder estadístico. Asume la hipótesis nula que prueba que 2 grupos son idénticos para todos los CV vs. la hipótesis de efecto en uno o más de dichos criterios.
Respecto de la publicación de las investigaciones, los autores sugieren la presentación de riesgos relativos con intervalos de confianza para los efectos, más que sólo la prueba de la hipótesis (sólo un valor de p). Asimismo, sugieren que la toma de decisiones en la investigación médica desaliente los ajustes de multiplicidad.

Criterios de valoración múltiples
El abordaje ideal para el diseño y análisis de estudios aleatorizados y controlados se basa en un solo CV primario. Sin embargo, muchos investigadores analizan varios CV y algunos sólo comunican las comparaciones significativas. La selección post hoc de un CV con la diferencia de tratamiento más significativa exagera una diferencia de tratamiento.
Los investigadores deberían restringir el número de CV primarios y especificarlos a priori para incrementar la simplicidad de la implementación y la credibilidad de los resultados. Sin embargo, los informes de los estudios suelen contener evaluaciones de CV no incluidos en el protocolo e ignoran los análisis planeados en forma primaria. Por último, los investigadores deben informar todas las comparaciones realizadas.
Los ajustes estadísticos para CV múltiples pueden sabotear la interpretación. Como ejemplo, en un estudio de un nuevo antibiótico comparado con un antibiótico estándar para la prevención de fiebre luego de una histerectomía, se designa a la fiebre como CV primario y los resultados muestran 50% de reducción (riesgo relativo [RR]: 0.5 [95% intervalo de confianza [IC]: 0.25 a 0.99], p = 0.048). Al mismo tiempo, si se hubieran designado 2 CV primarios -infección de la herida y fiebre, criterios muy correlacionados- además del 50% de reducción de la fiebre se observa un 52% de reducción en la infección de la herida (0.48 [0.24 a 0.97], p = 0.041). Desde el punto de vista de algunos estadistas, los investigadores deberían realizar la corrección por las comparaciones múltiples, por ejemplo mediante la multiplicación de p por el número de comparaciones (0.048 x 2 = 0.096 y 0.041 x 2 = 0.082). Ambos valores de p se ajustan a > 0.05 con un resultado indeterminado (negativo).

Los investigadores experimentados consideran estos resultados de forma diferente. El resultado de la infección de la herida amplía más de lo que reduce el primer resultado de fiebre, dado que biológicamente ambos criterios se relacionan. Muchos estadistas estarían de acuerdo en evitar el uso de los ajustes para la multiplicidad en el ejemplo anterior.
El ajuste de Bonferroni, recomendado con mayor frecuencia para la multiplicidad, es una corrección en más. La sobrecorrección para valores de p dificulta la interpretación de los resultados. El ajuste para comparaciones múltiples mecaniza y trivializa el problema y niega el valor de mucha de la información en un gran conjunto de datos. Las interpretaciones clínicas todavía son importantes. Los investigadores deben poner énfasis en el menor número de CV que tenga sentido clínico e informar sobre los resultados de todos los CV evaluados. En caso de más de un CV, deben discutir si los criterios adicionales refuerzan o no los hallazgos principales. Con frecuencia, los ajustes formales para multiplicidad oscurecen la interpretación.

Criterios de valoración compuestos
Los CV compuestos (CVC) pueden paliar los problemas de multiplicidad. Un CVC ocurre si cualquiera de los componentes tiene lugar. Por ejemplo, un CVC cardiovascular se presenta si se observa infarto de miocardio, ictus o muerte cardiovascular. El CVC permite obviar las comparaciones múltiples asociadas con la evaluación de los componentes separados y suelen conducir a índices de eventos elevados, por lo que aumentan el poder o reducen los requerimientos del tamaño de la muestra. Sin embargo, a veces surgen dificultades de interpretación. Por ejemplo, la aspirina produjo una reducción del 18% (RR: 0.82 [95% IC: 0.7 a 0.96]) en el CVC cardiovascular, pero los componentes separados revelaron reducción del 44% del infarto de miocardio, incremento del 22% del ictus y ausencia de efecto sobre la muerte cardiovascular. Esa reducción del 18% carecería de sentido en vista de la falta de efecto beneficioso sobre los resultados relativamente más importantes de muerte e ictus. Con frecuencia, los CVC carecen de relevancia clínica y confieren eficiencia estadística con el riesgo de crear dificultades de interpretación.

Tratamientos múltiples
Respecto de los estudios comparativos entre drogas, las comparaciones potenciales pueden ser numerosas, por lo que los investigadores deben especificar a priori las comparaciones a realizar.
Los ajustes para las comparaciones múltiples no parecen necesarios en estudios con varios grupos. Similar al razonamiento para CV múltiples, los clínicos suelen encontrar que la suma de un grupo al estudio incrementa la información. Con los ajustes para comparaciones múltiples de grupos de tratamiento (multiplicación de p por el número de comparaciones) los efectos se vuelven no significativos a nivel 0.05. Los clínicos podrían desconfiar de los ajustes que anulan los resultados significativos. El ajuste de los valores de p, en particular con grupos de tratamiento relacionados, no ayuda para interpretar los resultados del estudio. Con los tratamientos múltiples, los investigadores a veces usan una secuencia prioritaria de pruebas para abordar la multiplicidad sin ajustes.

El papel de los ajustes para la multiplicidad
A veces no se pueden evitar los ajustes para multiplicidad, como ocurre con los criterios para la toma de decisiones en informes para agencias reguladoras para la aprobación de drogas. Si el patrocinador especifica más de un CV primario y propone declarar el efecto del tratamiento si uno o más son significativos, los investigadores deben realizar ajustes para multiplicidad. Los ajustes también pueden indicarse en estudios de múltiples brazos donde se planean análisis amplios.

Lo que los lectores deberían buscar
Los lectores deberían esperar que los investigadores informen sobre todos los CV y los tratamientos comparados, así como cierta interpretación en caso de comparaciones múltiples y la especificación separada de los componentes de un CVC como CV secundarios. En general, los lectores no deben esperar correcciones para la multiplicidad. Para la mayoría de los estudios, los ajustes carecen de fundamento y resultan poco útiles, salvo excepciones. Según los autores, los investigadores deberían usar ajustes cuando el razonamiento de toma de decisión se basa en uno o más CV primarios que resultan significativos, dado que el ajuste, de alguna manera, salva los análisis dispersos.

Puntos de vista

Discusion sobre la utilidad de los ajustes para las comparaciones multiples

Compartir nota