Ciencia

Por qué ‘estadísticamente significativo’ no debería ser un sello de aprobación científica

Nature
Nature-estadísticamente-aprobación-científica-UNAMGlobal
El concepto de "significación estadística" se ha convertido en una abreviatura científica para el valor de un hallazgo. Imagen: Nature

En estadística, ‘significación’ es algo así como fiabilidad, un resultado significativo es un resultado por el que podemos apostar. Ante una afirmación estadísticamente significativa podemos pensar que si volviésemos a hacer lo mismo, si volviésemos a empezar todo lo que habíamos hecho y que nos ha llevado a tales afirmaciones, y lo hiciésemos en las mismas circunstancias, pero con otra muestra, acabaríamos diciendo algo similar, algo equivalente.

En cualquier experimento en el que se use una muestra de una población (por ejemplo, una muestra de pacientes con una enfermedad determinada) existe la posibilidad de que un efecto observado se deba a las diferencias entre la muestra y la población total (error de muestreo) en lugar de al medicamento durante la investigación.

Una afirmación si es estadísticamente significativa, el resultado es poco probable que sea fruto del azar del muestreo. Si una técnica estadística duda de la representatividad de un muestreo dice: «esto no significativo».

La significación estadística se mide mediante el p-valor. Éste es un valor que va del 0 al 1, con dos sectores bien diferenciados: del 0 al 0.05 y del 0.05 al 1. Una metáfora posible, en esta situación, es la de las notas: En nuestro sistema educativo las notas van del 0 al 10, y es bien distinto el sector de notas que va del 0 al 5 que el que va del 5 al 10. Esto mismo sucede con el p-valor. La frontera del 0.05 en el p-valor es, en cierto modo, equivalente al 5 en las notas. Una correlación será significativa si su p-valor es inferior a 0.05

Lograr un resultado experimental con significación estadística a menudo determina si se publica el artículo de un científico o si se financian más investigaciones. Eso hace que la medida sea demasiado importante para decidir las prioridades de investigación, dicen los estadísticos, por lo que es hora de tirarla a la basura.

Más de 800 estadísticos y científicos están pidiendo el fin de juzgar los estudios por significación estadística, según un comentario publicado en Nature. Un número especial del American Statistician aclara el manifiesto en su introducción: «‘estadísticamente significativo’ – no lo diga y no lo use».

Durante varias generaciones, los investigadores han sido advertidos de que un resultado estadísticamente no significativo no «prueba» la hipótesis nula (la hipótesis de que no hay diferencia entre los grupos o ningún efecto de un tratamiento en algún resultado medido). Los resultados estadísticamente significativos tampoco «prueban» alguna otra hipótesis. Tales conceptos erróneos han deformado la literatura con afirmaciones exageradas y, han llevado a reclamos de conflictos entre estudios donde no existe efecto alguno.

Seamos claros acerca de lo que debe detenerse: nunca debemos concluir que no hay «ninguna diferencia» o «ninguna asociación» simplemente porque un p-valor es mayor que 0.05 o. Tampoco debemos concluir que dos estudios entran en conflicto porque uno tuvo un resultado estadísticamente significativo y el otro no. Estos errores desperdician los esfuerzos de investigación y desinforman las decisiones políticas.

Por ejemplo, considere una serie de análisis de los efectos no deseados de los medicamentos antiinflamatorios. Debido a que sus resultados no fueron estadísticamente significativos, un grupo de investigadores concluyó que la exposición a los medicamentos «no estaba asociada» con la fibrilación auricular de nueva aparición (la alteración más frecuente del ritmo cardíaco) y que los resultados contrastaban con los de un estudio anterior con un resultado estadísticamente significativo.

Ahora, veamos los datos reales. Los investigadores que describen sus resultados estadísticamente no significativos encontraron una razón de riesgo de 1.2 (es decir, un riesgo 20% mayor en pacientes expuestos en comparación con los no expuestos). También encontraron un intervalo de confianza del 95% que abarcó todo, desde una disminución insignificante del riesgo del 3% hasta un aumento considerable del riesgo del 48% (P = 0.091; nuestro cálculo). Los investigadores del estudio anterior, estadísticamente significativo, encontraron exactamente la misma razón de riesgo de 1.2. Ese estudio fue simplemente más preciso, con un intervalo que abarca desde un 9% hasta un 33% más de riesgo (P = 0,0003; nuestro cálculo).

Es absurdo concluir que los resultados estadísticamente no significativos mostraron «no asociación», cuando la estimación del intervalo incluyó aumentos de riesgo graves; Es igualmente absurdo afirmar que estos resultados contrastan con los resultados anteriores que muestran un efecto idéntico observado. Sin embargo, estas prácticas comunes muestran cómo la confianza en umbrales de significación estadística puede inducirnos a error.

Los firmantes del manifiesto están en contra de la idea de significación estadística, donde p-valor es menor o igual a 0.05. Ese límite da una falsa sensación de certeza sobre los resultados, dice McShane. «Las estadísticas a menudo se perciben erróneamente como una forma de deshacerse de la incertidumbre«, dice. Pero en realidad se trata de «cuantificar el grado de incertidumbre».

Abrazar esa incertidumbre cambiaría la forma en que la ciencia se comunica al público. La gente espera respuestas claras de sí o no de la ciencia, o quiere saber que un experimento «encontró» algo, aunque ese nunca es realmente el caso, dice Haaf. Siempre hay incertidumbre en los resultados científicos. Pero en este momento, científicos y no científicos por igual han aceptado la falsa certeza de la significación estadística.

Aquellos que enseñan o comunican ciencias, y aquellos que aprenden y escuchan, necesitarían comprender y aceptar la incertidumbre junto con la comunidad científica. «No estoy seguro de cómo hacemos eso», dice Haaf. «Lo que la gente quiere de la ciencia son las respuestas, y a veces la forma en que informamos los datos debería mostrar que no tenemos una respuesta clara; es más desordenado de lo que piensas«.

Nuestro llamado a retirar la significación estadística y usar intervalos de confianza como intervalos de compatibilidad no es una panacea. Aunque eliminará muchas malas prácticas, bien podría introducir nuevas. Por lo tanto, monitorear la literatura en busca de abusos estadísticos debería ser una prioridad continua para la comunidad científica. Pero erradicar la categorización ayudará a detener las afirmaciones de exceso de confianza, declaraciones injustificadas de «no hay diferencia» y declaraciones absurdas sobre «falla de replicación» cuando los resultados de los estudios originales y de replicación son altamente compatibles. El mal uso de la significación estadística ha hecho mucho daño a la comunidad científica y a quienes confían en el asesoramiento científico. Los valores de P, los intervalos y otras medidas estadísticas tienen su lugar, pero es hora de que la significación estadística desaparezca.

Fuente: Nature

Deja tu comentario

Comentarios