Introducción |
Existe un amplio acuerdo de que los ensayos controlados randomizados (ECR) producen la evidencia más confiable sobre los beneficios y riesgos de las intervenciones clínicas desarrolladas recientemente o ya existentes, llevando finalmente a una mejor atención para los pacientes [1-3].
Para permitir juicios informados sobre la validez externa y la calidad metodológica de los ECR, es de suma importancia un reporte adecuado [4]. Para los ECR publicados, varios estudios de investigación han identificado serias limitaciones en ese reporte [3,5-9].
En la década pasada, ha habido esfuerzos considerables para mejorar la calidad de los reportes de estudios individuales de investigación.
Comúnmente, este desafío se ha abordado con el desarrollo de guías para los reportes, que brindan un asesoramiento estructurado sobre la información mínima necesaria en un artículo de investigación, para permitir a los lectores una evaluación adecuada de la metodología del estudio, y la relevancia y validez de los hallazgos de la investigación.
La última actualización de los Consolidated Standars of Reporting Trials (CONSORT) Statement, la guía más importante para los reportes destinada a mejorar la transparencia y calidad de los ECR reportados, fue publicada simultáneamente en 10 revistas médicas líderes en 2010 [10].
A pesar de cierta mejora con la implementación de la Declaración CONSORT, aún persisten importantes deficiencias en los reportes de los ECR publicados [11]. En comparación con los ensayos sobre fármacos, los ECR quirúrgicos enfrentan varios desafíos específicos (por ej., curva de aprendizaje, alta proporción de cruces debidos a la preferencia y falta de ocultamiento (blinding) de datos [12], y una calidad particularmente baja de los reportes de ensayos quirúrgicos [13]. Por lo tanto, Boutron y col., desarrollaron una extensión de la Declaración CONSORT, específicamente para el reporte de los ensayos de tratamientos quirúrgicos y no farmacológicos (CONSORT-NPT) [14,15].
Los reportes deficientes no son solo un problema en las publicaciones de texto completo, sino también en los resúmenes de las revistas, así como en los resúmenes de las conferencias [16]. Eso puede tener implicaciones importantes porque el resumen frecuentemente es la única parte leída por los médicos de un artículo, debido a las restricciones de tiempo, o porque la publicación del texto completo no está disponible gratuitamente [17].
Por lo tanto, un reporte deficiente puede conducir a decisiones equivocadas en la práctica clínica. De aquí en adelante, el grupo CONSORT desarrolló y publicó en 2008 una extensión CONSORT, para reportar específicamente los resúmenes de los ECR (CONSORT-A) [18]. En el presente estudio, los autores apuntan a evaluar la calidad de los reportes de los resúmenes de ECR en las revistas quirúrgicas mejor clasificadas, antes y después de que se publicara CONSORT-A,
Métodos |
> Estrategia de búsqueda y criterios de inclusión
Se buscó en PubMed los ECR publicados en los años 2005-2007 (antes de que se publicara la extensión CONSORT-A), en las cinco revistas quirúrgicas con el mayor factor de impacto en 2007 (Annals of Surgery, British Journal of Surgery, American Journal of Transplantation, The Journal of Heart and Lung Transplantation, y Journal of Neurology, Neurosurgery and Psichiatry, de acuerdo con Thomson Reuters InCities Journal Citation Reports) [19].
No se consideraron las revistas que estaban listadas entre las mejor clasificadas pero que fueron fundadas después de 2005. Se incluyeron reportes primarios de ECR (esto es, aquellos reportes sobre resultados primarios) que evaluaron procedimientos quirúrgicos así como otras intervenciones, si estaban claramente asociadas con un procedimiento quirúrgico (esto es, directamente antes o después de la cirugía; por ej., ejercicio físico antes de la cirugía, intervención dietética después de la cirugía).
Se excluyeron los artículos que no eran sobre un ECR, los realizados adicionalmente, los análisis secundarios de un ECR o un estudio dentro de un ensayo (SWAT), los etiquetados explícitamente como pilotos y los de factibilidad, y los ECR que no tenían nada que ver con cirugía, o que no fueron efectuados directamente antes, durante o después de la cirugía (por ej., evaluación de tratamientos nuevos 1 año después del trasplante de un órgano).
También se excluyeron los artículos sobre ECR si el punto temporal de los resultados no incluía claramente el resultado primario (por ej., resultados adicionales a largo plazo, 10 años después de la cirugía). Dos revisores seleccionaron independientemente títulos y resúmenes para su elegibilidad (BS, KAM, AA, VG, DG y MB). El texto completo fue considerado sólo cuando no estaba claro, basado en el resumen, si el artículo debía ser incluido. Los desacuerdos se resolvieron mediante discusión.
> Extracción de datos
Dos revisores extrajeron independientemente datos de cada uno de los resúmenes incluidos. Cada extractor de datos recibió un manual explicando los criterios de inclusión y los ítems específicos para extraer. La extracción se comprobó primero como prueba piloto, para asegurarse que los extractores de datos aplicaban el mismo juicio sobre los diferentes ítems de CONSORT-A.
Un total de 15 ítems de CONSORT-A [18] fue evaluado por duplicado si eran reportados adecuadamente (si/no). Se usaron las explicaciones y elaboraciones de CONSORT publicadas por Hopewell y col. [14]. Los dos ítems específicos del resumen de la conferencia "autores" y "reclutamiento" no se consideraron. Para evaluar si el estado de ocultamiento fue reportado adecuadamente, se copió la declaración sobre ocultamiento.
En un primer escenario, el ocultamiento fue asumido como adecuado sólo si era mencionado claramente el estatus que involucraba a personas (esto es, profesionales, pacientes, asesores de resultado). En un segundo escenario menos estricto, se aceptaron también términos generales como “doble ciego” o “simple ciego”.
Asimismo, cada vez que al menos una de las ramas de tratamiento incluía una intervención no farmacológica, los dos ítems para resúmenes, de los resúmenes no farmacológicos, fueron evaluados de acuerdo con una extensión publicada por Boutron y col. [14].
> Cálculo del tamaño de la muestra
El objetivo de este estudio fue comparar el número de ítems reportados en los ensayos quirúrgicos antes y después de la publicación de la extensión CONSORT para guía de los resúmenes, en 5 revistas de cirugía relevantes.
Un estudio previo analizando las principales revistas médicas reportó una diferencia media de alrededor de 3 sobre la cantidad de ítems reportados (media en 2007: 9,06; desvío estándar [DE]: 2,15; media en 2012: 12,11; DE: 2,22), con un DE por debajo de 2 [20]. Ese estudio, realizado por Mbuagbaw y col., evaluó todos los 17 ítems de CONSORT-A.
Cuando sólo se toman en cuenta los mismos 15 ítems que los autores del presente estudio planificaron evaluar, el puntaje promedio de Mbuagbaw y col., sería 8,0 (2007) y 11,0 (2012). Desde una perspectiva práctica podría ser de interés detectar diferencias medias tan bajas como 1,5 ítems.
Asumiendo conservadoramente un DE de 2,5, los autores necesitaron 60 artículos por período de estudio para tener un poder estadístico del 90%, para detectar una diferencia media de 1,5 a un nivel de significación del 5%, usando la prueba de t.
Dado que no tenían información previa sobre la distribución de artículos a través de las diferentes revistas, y debido al carácter bastante descriptivo de este estudio, no se consideró directamente el agrupamiento antes de realizar el estudio, y se decidió incluir a todos los artículos relevantes.
Esto les proporcionó una muestra inflada con respecto a la necesaria bajo el supuesto de independencia; no obstante, tuvieron que tener en cuenta el hecho de que con datos agrupados necesitaban inflar el tamaño de la muestra por el factor de inflación de varianza [21].
> Medidas de resultado y análisis estadístico
El resultado primario fue la diferencia media, con intervalos de confianza (IC) del 95%, en la frecuencia del reporte adecuado de los 15 ítems CONSORT, es decir, la diferencia de puntajes generales entre los dos períodos de tiempo (2005-2007 vs 2014-2016). La prueba t no emparejada de Student fue utilizada para comparar las medias.
Para evaluar si un aumento en la frecuencia de reportes adecuados podía ser explicado simplemente por una tendencia temporal, se visualizaron diagramas de caja por año de publicación. Además, se modeló la probabilidad general de reportar un ítem mediante una regresión logística de efectos mixtos.
Para cada artículo, se consideraron resultados binarios para todos los ítems (reportado/no reportado) y se ajustó un modelo con un efecto aleatorio, tanto para la revista como para el ítem, mientras se ajustó por el tamaño de la muestra para cada estudio.
Se excluyeron 3 ECR porque no tenían claro el tamaño de la muestra. Los resultados secundarios fueron la frecuencia de reportes adecuados de los ítems del CONSORT-A por separado, que fueron comparados mediante la prueba de chi-cuadrado y calculando las odds ratios (OR). El reporte de los 2 ítems para los resúmenes de los resúmenes no farmacológicos, fue presentado descriptivamente.
Resultados |
Se identificaron 339 artículos potencialmente elegibles en la fase pre-CONSORT-A y 348 en la fase post-CONSORT-A. De ellos, un total de 192 (2005-2007) y 164 (2014-2016) fueron elegibles para ser incluidos. La gran mayoría de los artículos incluidos (274 de 356; 77,0%) provino de 2 revistas (Annals of Surgery y British Journal of Surgery).
La media del tamaño de la muestra en los ECR en los resúmenes incluidos fue de 106 (rango intercuartil [RIC]: 68-200) para la fase pre-CONSORT-A, y de 130 (RIC: 80-240) para la fase post-CONSORT-A. En la mayoría de los casos, el resumen no contenía información para determinar si el ECR era de un único centro asistencia o multicéntrico (poco claro en general en el 70,8%).
La media del puntaje global de ítems CONSORT-A adecuadamente reportados fue de 6,14 (95% IC: 5,90–6,38) para los resúmenes de las revistas publicados entre 2005 y 2007, y de 8,11 (95% IC: 7,83–8,39) desde 20014 hasta 2016.
La diferencia media en el puntaje global fue de 1,97 (95% IC: 1,60–2,33; p < 0,0001). La inspección de los gráficos de caja para los años individuales no mostró una tendencia general al alza con el tiempo. Del modelo de efectos aleatorios (ajustado por revista, tamaño de la muestra e ítem) se obtuvo una OR de 2,59 (95% IC: 2,22–3,03).
El aumento generalizado en la adhesión a CONSORT-A fue también visible a nivel de los ítems individuales. El análisis exploratorio indicó un aumento significativo en 9 de los 15 ítems evaluados.
Los ítems sin mejora significativa fueron la randomización (adherencia 2005-2007: 0,5%; 2014-2016: 2,4%), número de participantes randomizados en cada grupo (2005-2007: 52,1%; 2014-2016: 59,2%), daños (2005-2007: 57,3%; 2014-2016: 65,2%), financiamiento (2005-2007: 0,0%; 2014-2016: 0,0%), ocultamiento (2005-2007: 9,9%; 2014-2016: 13,4%), así como conclusión (2005-2007: 97,9%; 2014-2016: 98,8%), que ya tenía una muy alta adherencia en los años 2005-2007.
Cuando se aceptaron términos ambiguos tales como “doble ciego” o “simple ciego”, hubo un aumento significativo en el reporte del estatus de ocultamiento (2005-2007: 22,9%; 2014-2016: 33,5%). Aun cuando la adhesión a CONSORT-A fue sustancialmente más alta después de la publicación de la extensión CONSORT para los resúmenes [18], quedaron todavía 7 ítems con una adhesión por debajo del 50% en los 164 ECR publicados en la fase post-CONSORT-A. Estos fueron sobre participantes (20,7%), randomización (2,4%), ocultamiento (13,4%), cantidad de participantes analizada (31,1%), registro del ensayo (46,3%) y fondos (0,0%).
Los dos ítems de CONSORT-A adaptados para tratamiento no farmacológico fueron aplicables en 116 ECR en el período de tiempo desde 2005 hasta 2007, y en 106 ECR desde 2014 hasta 2016. El reporte de esos dos ítems fue bajo (aproximadamente 10%) en ambos períodos de tiempo.
Discusión |
Hasta donde llega el conocimiento de los autores de este trabajo, esta es la primera evaluación sistemática de la calidad de los reportes de los resúmenes de los ECR quirúrgicos, según las guías CONSORT-A.
Se halló una mejora significativa en el reporte de los ítems de CONSORT-A de los resúmenes quirúrgicos, cuando se compararon los períodos de tiempo antes y después de la publicación de la extensión de CONSORT para los resúmenes. No obstante, la adhesión a CONSORT-A sigue siendo insatisfactoria en 2014-2016, con una adhesión media de 8,11 ítems (sobre un total de 15 ítems evaluados).
Observando los ítems individuales, hubo cuatro que tuvieron una adhesión alta o relativamente alta en la fase pre-CONSORT-A (esto es, ≥ 70%). Ellos fueron los siguientes: título, intervención, objetivo específico o hipótesis, y conclusión. Después de la publicación de la extensión CONSORT-A, sólo un ítem adicional alcanzó una adhesión de, al menos, el 70% (esto es, el diseño del ensayo).
El aumento en el puntaje global puede probablemente ser explicado mejor cuando se mira ítems específicos que raramente son reportados (por debajo del 30%).
En los ECR quirúrgicos publicados entre 2005 y 2007, un total de 9 ítems CONSORT-A fue reportado en menos del 30% de los resúmenes evaluados (esto es, participantes, resultado primario claramente definido, randomización, ocultamiento, número de pacientes analizados, resultado, registro del ensayo, financiación).
En la fase post-CONSORT-A, esa cantidad de ítems altamente subreportados se redujo a cuatro (esto es, participantes [20,7%], randomización [2,4%], ocultamiento [13,4%], financiamiento [0,0%]). Los dos escenarios evaluados para el estado de ocultamiento mostraron que, si todos eran reportados, los términos más ambiguos tales como “doble ciego” se utilizan en lugar de mencionar claramente el estatus de ocultamiento de los individuos involucrados [22].
El reporte adecuado parece también estar descuidado en otros campos médicos. Un estudio similar realizado por Mbuagbaw y col. [20], evaluó la adhesión al CONSORT-A en 2007 y 2012, en cinco revistas de medicina general con los factores de mayor impacto. También hallaron un aumento significativo en el reporte general de los ítems de CONSORT-A. La adhesión global en 2012 fue de 12,11 ítems (sobre un total de 17 ítems evaluados; 71,2%).
La comparación de eso con los resultados del presente estudio (adhesión media de 8,11 ítems en 2014-2016 sobre un total de 15 ítems evaluados; 54,1%) puede indicar que aún hay mucho lugar para mejorar la adhesión al CONSORT-A en los resúmenes quirúrgicos. Este hallazgo concordaría con varias evaluaciones de reportes de la declaración CONSORT (no CONSORT-A), que encontraron que un factor asociado con la mala adhesión fueron los ensayos no farmacológicos [23].
Otro estudio, de Sriganesh y col., evaluó la adhesión a CONSORT-A, antes y después de su publicación, en las cinco revistas sobre dolor con el factor más alto de impacto. Hallaron una mejora desde un número medio de ítems reportados de 6,12 en los años 2005-2007 (n = 125), a un número medio de ítems reportados de 7,06 en los años 2013-2015 (n = 125) [24].
El reporte de varios ítems separados estuvo en un rango similar al encontrado en el presente estudio. Por ejemplo, el financiamiento tampoco fue reportado en el resumen simple en las revistas sobre dolor, y la randomización fue reportada sólo en el 2,4% (también 2,4% en las revistas de cirugía) de los resúmenes en la fase post-CONSORT-A. Otras dos evaluaciones de CONSORT-A en campos médicos especializados (revistas de anestesia y de implante oral) también hallaron resultados similares [25,26].
El presente estudio tiene las siguientes fortalezas: se utilizó un abordaje sistemático en el marco de un diseño de estudio antes-después, para evaluar si la adhesión a CONSORT-A había mejorado. Los criterios de inclusión y la extracción de datos fueron claramente definidos y comprobados mediante prueba piloto. La selección de resúmenes para su inclusión, así como la extracción de datos, fue realizada por duplicado y todas las discrepancias fueron resueltas mediante discusión.
Cada extractor evaluó la misma cantidad de resúmenes en la fase pre-CONSORT-A y en la fase post-CONSORT-A, para estar seguro de que los resultados no estaban influenciados por juicios individuales de los extractores de datos.
El análisis basado en modelos indicó una fuerte mejora, incluso después de tomar en cuenta la agrupación a nivel de revista e ítem, y de ajustar por el tamaño de la muestra del estudio.
Por otra parte, no hubo una evidencia de mejora gradual con el tiempo, sugiriendo que la introducción de CONSORT-A fue una razón plausible para el efecto observado. También se evaluaron dos ítems específicos para los tratamientos no farmacológicos, destacando que los mismos en general son raramente reportados.
Existen varias limitaciones que merecen ser mencionadas.
Primero, a pesar de que los documentos de explicación y elaboración intentan explicar y estandarizar los reportes correctos, la evaluación de reportes adecuados siempre incluye un juicio. Se trató de estandarizar la evaluación con una prueba piloto, ideando un manual, y extrayendo los ítems por duplicado. Por ejemplo, no se requirió el término “paralelo” o “superioridad”, cuando eso estaba generalmente claro en la descripción.
Segundo, algunos ítems consisten en varios aspectos que solo se juzgaron en general y no para cada ítem específico. El ítem “participantes”, por ejemplo, generalmente no estuvo adecuadamente reportado porque el mismo requiere también una descripción de la configuración del estudio [18].
Tercero, los extractores de datos eran conscientes si extraían datos de un resumen de la fase pre o post-CONSORT-A; por lo tanto, no desconocían eso, lo que pudo haber influenciado sobre el resultado.
Cuarto, la gran mayoría de los ECR incluidos provino de dos revistas quirúrgicas, Annals of Surgery y British Journal of Surgery, De acuerdo con las instrucciones para los autores, ambas revistas permiten sólo 250 palabras dentro del resumen, que es bastante poco, y que pudo haber influenciado la adhesión a CONSORT-A.
Quinto, aun cuando se realizó también un análisis ajustado, no se pudo tomar en cuenta otras características que puedan explicar también una mejora general (por ej., fuente de financiación, cantidad de centros asistenciales, resultados positivos o negativos, revista, y aprobación de las guías CONSORT-A.
Sin embargo, los autores están convencidos que esas limitaciones no influyen sobre las conclusiones principales. Esta evaluación indica claramente que el reporte en los resúmenes quirúrgicos mejoró (las razones subyacentes para esa mejora no pudieron ser enteramente evaluadas) y, más importante, que el reporte adecuado es aun relativamente bajo.
Es importante que los investigadores sean conscientes de la información requerida cuando presentan sus resultados, de manera que los lectores puedan juzgar adecuadamente y de manera transparente la calidad del estudio. Las revistas y sus editores juegan un papel crucial en la mejora del reporte de los resúmenes. Por ejemplo, indicando en las instrucciones para los autores que los manuscritos deben adherir a CONSORT-A.
De las revistas evaluadas, sólo el British Journal of Surgery menciona claramente en las instrucciones para los autores que deben ser consideradas las guías de CONSORT-A. El American Journal of Transplantation brinda un enlace a la red ECUATOR (Enhancing the QUAlity and Transparency Of health Research), alentando a aplicar las guías apropiadas [27]. Otras opciones que puede mejorar adecuadamente el reporte en los resúmenes podrían consistir en requerir activamente la adhesión a los ítems pasados por alto durante el proceso de revisión por pares, y límites de palabras menos estrictos para los ECR.
En conclusión, la adhesión a CONSORYT-A mejoró significativamente cuando se compara la fase antes de su publicación (esto es, los años 2005-2007), con la fase después de la misma (esto es, años 2014-2016).
No obstante, la adhesión generalizada permanece insatisfecha y ciertos ítems casi nunca fueron reportados adecuadamente (esto es, randomización, ocultamiento y financiación).
Comentario y resumen objetivo: Dr. Rodolfo D. Altrudi