Estudios de investigación | 21 FEB 07

Discusion sobre la utilidad de los ajustes para las comparaciones multiples

Los ajustes estadísticos para las comparaciones múltiples en la mayoría de los estudios de investigación resultan poco útiles, salvo algunas excepciones.
Autor/a: Schulz KF y Grimes DA Fuente: Family Health International, PO Box 13950, Research Triangle Park, NC 27709 USA Lancet 365(9470):1591-1595, Abr 2005

Introducción

Diversos problemas analíticos en las investigaciones derivan de la multiplicidad. Algunos investigadores agregan análisis no planeados, examinan criterios de valoración (CV) adicionales, manipulan comparaciones grupales o realizan muchos análisis de subgrupos. Miles de comparaciones potenciales pueden emanar de un estudio, en cuyo caso muchos resultados significativos serían esperados sólo por azar. Algunos estadistas proponen ajustes para resolverlo, pero desafortunadamente estos ajustes suelen crear más problemas.

Los problemas de multiplicidad tienen varios orígenes. En este trabajo, los autores abordan los CV y los tratamientos múltiples. La multiplicidad implica problemas tanto para los investigadores como para los lectores. En primer lugar, los investigadores deberían informar todas las comparaciones implementadas, pero a veces esconden el análisis completo, con lo que perjudican la comprensión del lector. En segundo lugar, si los investigadores informar todas las comparaciones, los estadistas ofrecen ajustes para explicar comparaciones múltiples. Los investigadores precisan saber si deberían usar dichos ajustes y, los lectores, si deberían esperarlos.

La multiplicidad puede incrementar el error en las pruebas de significación. El error de tipo 1 (alfa), bajo la hipótesis de falta de asociación entre 2 factores, indica la probabilidad de que la asociación observada proveniente de los datos disponibles pueda atribuirse al azar. Además, notifica al lector sobre la probabilidad de una conclusión falsa positiva. El problema surge cuando se prueban múltiples asociaciones independientes respecto de la significación. Si d = es el número de comparaciones, entonces la probabilidad de que al menos una asociación resulte significativa es 1-(1-alfa)d. En general, se fija alfa en 0.05. Entonces, si se estudian 10 asociaciones independientes y se asume la hipótesis nula de falta de asociación en las 10, la probabilidad de al menos un resultado significativo es 0.40 (1-(1-0.05)10). La probabilidad de un falso positivo para cada comparación es 0.05 (5%) se estudie uno o un millón.

Solución propuesta
La mayoría de los estadistas podrían recomendar la reducción del número de comparaciones como solución a la multiplicidad. Algunos sugieren realizar ajustes para que la probabilidad de un hallazgo falso positivo iguale a alfa luego de realizar d comparaciones. Los autores suelen atribuir el método a Bonferroni y plantean que para evaluar comparaciones de un estudio a nivel alfa, todas las comparaciones deben realizarse al nivel de significación alfa/d. Entonces, para alfa = 0.05, con 10 comparaciones, cada prueba debería ser significativa a nivel de 0.005. En forma análoga, algunos investigadores conservan el umbral alfa pero multiplican cada valor de p por d. Por lo tanto, con 10 comparaciones, una p = 0.02 arrojaría un valor ajustado de p = 0.2. El ajuste de Bonferroni suele abordar la hipótesis falsa; exagera el error beta y reduce, de este modo, el poder estadístico. Asume la hipótesis nula que prueba que 2 grupos son idénticos para todos los CV vs. la hipótesis de efecto en uno o más de dichos criterios.
Respecto de la publicación de las investigaciones, los autores sugieren la presentación de riesgos relativos con intervalos de confianza para los efectos, más que sólo la prueba de la hipótesis (sólo un valor de p). Asimismo, sugieren que la toma de decisiones en la investigación médica desaliente los ajustes de multiplicidad.

Criterios de valoración múltiples
El abordaje ideal para el diseño y análisis de estudios aleatorizados y controlados se basa en un solo CV primario. Sin embargo, muchos investigadores analizan varios CV y algunos sólo comunican las comparaciones significativas. La selección post hoc de un CV con la diferencia de tratamiento más significativa exagera una diferencia de tratamiento.
Los investigadores deberían restringir el número de CV primarios y especificarlos a priori para incrementar la simplicidad de la implementación y la credibilidad de los resultados. Sin embargo, los informes de los estudios suelen contener evaluaciones de CV no incluidos en el protocolo e ignoran los análisis planeados en forma primaria. Por último, los investigadores deben informar todas las comparaciones realizadas.
Los ajustes estadísticos para CV múltiples pueden sabotear la interpretación. Como ejemplo, en un estudio de un nuevo antibiótico comparado con un antibiótico estándar para la prevención de fiebre luego de una histerectomía, se designa a la fiebre como CV primario y los resultados muestran 50% de reducción (riesgo relativo [RR]: 0.5 [95% intervalo de confianza [IC]: 0.25 a 0.99], p = 0.048). Al mismo tiempo, si se hubieran designado 2 CV primarios -infección de la herida y fiebre, criterios muy correlacionados- además del 50% de reducción de la fiebre se observa un 52% de reducción en la infecció

 

Comentarios

Para ver los comentarios de sus colegas o para expresar su opinión debe ingresar con su cuenta de IntraMed.

AAIP RNBD
Términos y condiciones de uso | Política de privacidad | Todos los derechos reservados | Copyright 1997-2024