Los científicos se levantan contra la significación estadística.

Valentin Amrhein, Sander Greenland, Blake McShane y más de 800 signatarios piden el fin de los reclamos publicitarios y el rechazo de posibles efectos cruciales.

¿Cuándo fue la última vez que escuchó a un orador del seminario afirmar que no había «diferencia» entre dos grupos porque la diferencia era «estadísticamente no significativa»?

Si su experiencia coincide con la nuestra, es muy probable que esto haya ocurrido en la última charla a la que asistió. Esperamos que al menos alguien en la audiencia esté perplejo si, como ocurre con frecuencia, una trama o una tabla demostró que en realidad había una diferencia.

¿De qué manera las estadísticas a menudo llevan a los científicos a negar las diferencias que los que no tienen conocimientos de estadística pueden ver claramente? Durante varias generaciones, se ha advertido a los investigadores que un resultado estadísticamente no significativo no «prueba» la hipótesis nula (la hipótesis de que no hay diferencia entre grupos o ningún efecto de un tratamiento en algún resultado medido) 1 . Los resultados estadísticamente significativos tampoco «prueban» alguna otra hipótesis. Estos conceptos erróneos han distorsionado la literatura con afirmaciones exageradas y, lo que es menos famoso, han llevado a reclamaciones de conflictos entre estudios donde no existe ninguno.

Tenemos algunas propuestas para evitar que los científicos sean víctimas de estos conceptos erróneos

Problema generalizado

Seamos claros acerca de lo que debe detenerse: nunca debemos concluir que «no hay diferencia» o «no asociación» simplemente porque un valor de P es mayor que un umbral como 0.05 o, de manera equivalente, porque un intervalo de confianza incluye cero. Tampoco debemos concluir que dos estudios entran en conflicto porque uno tuvo un resultado estadísticamente significativo y el otro no. Estos errores desperdician esfuerzos de investigación y desinforman decisiones políticas.

Por ejemplo, considere una serie de análisis de los efectos no deseados de los medicamentos antiinflamatorios 2 . Debido a que sus resultados fueron estadísticamente no significativos, un grupo de investigadores concluyó que la exposición a los fármacos «no estaba asociada» con la fibrilación auricular de inicio reciente (la alteración más común del ritmo cardíaco) y que los resultados contrastaban con los de una Estudio anterior con un resultado estadísticamente significativo.

Ahora, veamos los datos reales. Los investigadores que describieron sus resultados estadísticamente no significativos encontraron una relación de riesgo de 1.2 (es decir, un riesgo 20% mayor en pacientes expuestos en comparación con los no expuestos). También encontraron un intervalo de confianza del 95% que abarcó todo, desde una disminución insignificante del riesgo del 3% hasta un aumento considerable del riesgo del 48% ( P  = 0.091; nuestro cálculo). Los investigadores del estudio anterior, estadísticamente significativo, encontraron exactamente la misma relación de riesgo de 1.2. Ese estudio fue simplemente más preciso, con un intervalo que va desde un 9% a un 33% más de riesgo ( P  = 0,0003; nuestro cálculo).

Es absurdo concluir que los resultados estadísticamente no significativos no mostraron «asociación», cuando la estimación del intervalo incluyó graves aumentos de riesgo; es igualmente absurdo afirmar que estos resultados estaban en contraste con los resultados anteriores que muestran un efecto observado idéntico. Sin embargo, estas prácticas comunes muestran cómo la confianza en los umbrales de significación estadística nos puede engañar (vea ‘Cuidado con conclusiones falsas’).

Estos y otros errores similares están muy extendidos. Encuestas de cientos de artículos han encontrado que los resultados estadísticamente no significativos se interpretan como que indican «sin diferencia» o «sin efecto» en aproximadamente la mitad (consulte «Interpretaciones erróneas» e Información complementaria).

En 2016, la American Statistical Association publicó una declaración en The American Statistician advirtiendo contra el mal uso de la significación estadística y los valores de p . El tema también incluyó muchos comentarios sobre el tema. Este mes, un número especial en la misma revista intenta impulsar estas reformas. Presenta más de 40 artículos sobre ‘Inferencia estadística en el siglo XXI: un mundo más allá de P <0.05′. Los editores presentan la colección con la precaución de «no diga ‘estadísticamente significativo'» 3 . Otro artículo 4 con docenas de firmantes también pide a los autores y editores de revistas que rechacen esos términos.

Estamos de acuerdo y pedimos que se abandone todo el concepto de significación estadística.

Estamos lejos de estar solos. Cuando invitamos a otros a leer un borrador de este comentario y firmar sus nombres si estaban de acuerdo con nuestro mensaje, 250 lo hicieron en las primeras 24 horas. Una semana más tarde, tuvimos más de 800 signatarios, todos revisados ​​para una afiliación académica u otra indicación de trabajo presente o pasado en un campo que depende del modelado estadístico (consulte la lista y el recuento final de signatarios en la Información suplementaria). Estos incluyen estadísticos, investigadores clínicos y médicos, biólogos y psicólogos de más de 50 países y en todos los continentes, excepto la Antártida. Un defensor lo llamó un «ataque quirúrgico contra pruebas irreflexivas de importancia estadística» y «una oportunidad para registrar su voz a favor de mejores prácticas científicas».

No estamos pidiendo una prohibición de los valores de p . Tampoco estamos diciendo que no se puedan usar como criterio de decisión en ciertas aplicaciones especializadas (como determinar si un proceso de fabricación cumple con alguna norma de control de calidad). Y tampoco estamos abogando por una situación de todo vale, en la que la evidencia débil de repente se vuelve creíble. Más bien, y en línea con muchos otros a lo largo de las décadas, pedimos que se detenga el uso de los valores de P de la manera convencional y dicotómica, para decidir si un resultado refuta o apoya una hipótesis científica 5 .

Dejar de categorizar

El problema es humano y cognitivo más que estadístico: el agrupamiento de los resultados en ‘estadísticamente significativo’ y ‘estadísticamente no significativo’ hace que las personas piensen que los elementos asignados de esa manera son categóricamente diferentes 6 – 8. Es probable que surjan los mismos problemas en cualquier alternativa estadística propuesta que implique la dicotomización, ya sea frecuentista, bayesiana o de otro tipo.

Desafortunadamente, la falsa creencia de que cruzar el umbral de significación estadística es suficiente para mostrar que un resultado es «real» ha llevado a los científicos y editores de revistas a privilegiar tales resultados, distorsionando así la literatura. Las estimaciones estadísticamente significativas están sesgadas hacia arriba en magnitud y, potencialmente, en gran medida, mientras que las estimaciones estadísticamente no significativas están sesgadas hacia abajo en magnitud. En consecuencia, cualquier discusión que se centre en las estimaciones elegidas por su importancia será parcial. Además de esto, el enfoque rígido en la significación estadística alienta a los investigadores a elegir datos y métodos que produzcan significación estadística para algún resultado deseado (o simplemente publicable), o que produzcan no significación estadística para un resultado no deseado, como los posibles efectos secundarios de Las drogas, invalidando así las conclusiones.

El registro previo de los estudios y el compromiso de publicar todos los resultados de todos los análisis pueden hacer mucho para mitigar estos problemas. Sin embargo, incluso los resultados de estudios pre-registrados pueden estar sesgados por decisiones invariablemente dejadas abiertas en el plan de análisis 9 . Esto ocurre incluso con las mejores intenciones.

Nuevamente, no estamos abogando por una prohibición de los valores de P , los intervalos de confianza u otras medidas estadísticas, solo que no debemos tratarlos de manera categórica. Esto incluye la dicotomización como estadísticamente significativa o no, así como la categorización basada en otras medidas estadísticas como los factores de Bayes.

Una razón para evitar esa «dicotomanía» es que todas las estadísticas, incluidos los valores de P y los intervalos de confianza, varían naturalmente de un estudio a otro y, a menudo, lo hacen en un grado sorprendente. De hecho, la variación aleatoria por sí sola puede conducir fácilmente a grandes disparidades en los valores de P , mucho más allá de caer solo a ambos lados del umbral de 0.05. Por ejemplo, incluso si los investigadores pudieran realizar dos estudios de replicación perfectos de algún efecto genuino, cada uno con 80% de potencia (probabilidad) de lograr P  <0.05, no sería muy sorprendente que uno obtuviera P  <0.01 y el otro P  > 0.30 . Si un valor de P es pequeño o grande, se requiere precaución.

Debemos aprender a abrazar la incertidumbre. Una forma práctica de hacerlo es cambiar el nombre de los intervalos de confianza como ‘intervalos de compatibilidad’ e interpretarlos de una manera que evite el exceso de confianza. Específicamente, recomendamos que los autores describan las implicaciones prácticas de todos los valores dentro del intervalo, especialmente el efecto observado (o estimación puntual) y los límites. Al hacerlo, deben recordar que todos los valores entre los límites del intervalo son razonablemente compatibles con los datos, dados los supuestos estadísticos utilizados para calcular el intervalo 7 , 10 . Por lo tanto, no tiene sentido seleccionar un valor en particular (como el valor nulo) en el intervalo como «mostrado».

Estamos francamente hartos de ver esas «pruebas de nulidad» sin sentido y las afirmaciones de no asociación en presentaciones, artículos de investigación, revisiones y materiales de instrucción. Un intervalo que contiene el valor nulo a menudo también contendrá valores no nulos de gran importancia práctica. Dicho esto, si considera que todos los valores dentro del intervalo carecen prácticamente de importancia, entonces podría decir algo como «nuestros resultados son más compatibles sin ningún efecto importante».

Cuando se habla de intervalos de compatibilidad, tenga en cuenta cuatro cosas. Primero, solo porque el intervalo proporciona los valores más compatibles con los datos, dados los supuestos, no significa que los valores externos sean incompatibles; Simplemente son menos compatibles. De hecho, los valores justo fuera del intervalo no difieren sustancialmente de los que se encuentran dentro del intervalo. Por lo tanto, es erróneo afirmar que un intervalo muestra todos los valores posibles.

En segundo lugar, no todos los valores en el interior son igualmente compatibles con los datos, dadas las suposiciones. La estimación puntual es la más compatible, y los valores cercanos son más compatibles que los cercanos a los límites. Es por esto que instamos a los autores a discutir la estimación puntual, incluso cuando tienen una gran Pvalor o un intervalo amplio, así como discutir los límites de ese intervalo. Por ejemplo, los autores anteriores podrían haber escrito: «Al igual que en un estudio anterior, nuestros resultados sugieren un aumento del 20% en el riesgo de fibrilación auricular de inicio reciente en pacientes que reciben los medicamentos antiinflamatorios. No obstante, una diferencia de riesgo que va desde una disminución del 3%, una pequeña asociación negativa hasta un aumento del 48%, una asociación positiva sustancial, también es razonablemente compatible con nuestros datos, dadas nuestras suposiciones. Interpretar la estimación puntual, al tiempo que reconoce su incertidumbre, evitará que haga declaraciones falsas de «ninguna diferencia» y que haga afirmaciones de exceso de confianza.

Tercero, al igual que el umbral de 0.05 de donde provino, el 95% predeterminado utilizado para calcular intervalos es en sí mismo una convención arbitraria. Se basa en la falsa idea de que hay un 95% de probabilidad de que el intervalo calculado contenga el valor verdadero, junto con la vaga sensación de que esta es la base para una decisión segura. Se puede justificar un nivel diferente, dependiendo de la aplicación. Y, como en el ejemplo de los medicamentos antiinflamatorios, las estimaciones de intervalo pueden perpetuar los problemas de significación estadística cuando la dicotomización que imponen se trata como un estándar científico.

Por último, y lo más importante, sea humilde: las evaluaciones de compatibilidad dependen de la exactitud de los supuestos estadísticos utilizados para calcular el intervalo. En la práctica, estas suposiciones están, en el mejor de los casos, sujetas a una considerable incertidumbre 7 , 8 , 10 . Haga estas suposiciones lo más claras posible y pruebe las que pueda, por ejemplo, trazando sus datos y ajustando modelos alternativos, y luego informando todos los resultados.

Independientemente de lo que muestren las estadísticas, está bien sugerir razones para sus resultados, pero discutir una gama de posibles explicaciones, no solo las favoritas. Las inferencias deben ser científicas, y eso va mucho más allá de lo meramente estadístico. Los factores como la evidencia de antecedentes, el diseño del estudio, la calidad de los datos y la comprensión de los mecanismos subyacentes suelen ser más importantes que las medidas estadísticas, como los valores de P o los intervalos.

La objeción que más escuchamos contra el retiro de significación estadística es que se necesita para tomar decisiones de sí o no. Pero para las elecciones que a menudo se requieren en los entornos regulatorios, de políticas y de negocios, las decisiones basadas en los costos, beneficios y probabilidades de todas las consecuencias potenciales siempre superan las decisiones basadas únicamente en la importancia estadística. Además, para las decisiones sobre si continuar con una idea de investigación, no hay una conexión simple entre un valor de P y los resultados probables de estudios posteriores.

¿Cómo será la importancia estadística de la jubilación? Esperamos que las secciones de métodos y la tabulación de datos sean más detalladas y matizadas. Los autores enfatizarán sus estimaciones y la incertidumbre en ellas, por ejemplo, discutiendo explícitamente los límites inferior y superior de sus intervalos. No confiarán en pruebas de significación. Cuando se informen los valores de P , se darán con precisión sensible (por ejemplo, P  = 0.021 o P  = 0.13) – sin adornos como estrellas o letras para denotar significación estadística y no como desigualdades binarias ( P   <0.05 o P > 0.05). Las decisiones para interpretar o publicar resultados no se basarán en umbrales estadísticos. La gente pasará menos tiempo con el software estadístico, y más tiempo pensando.

Nuestro llamado a retirar significancia estadística y utilizar intervalos de confianza como intervalos de compatibilidad no es una panacea. Aunque eliminará muchas malas prácticas, bien podría introducir otras nuevas. Por lo tanto, el seguimiento de la literatura en busca de abusos estadísticos debe ser una prioridad constante para la comunidad científica. Pero la erradicación de la categorización ayudará a detener los reclamos de exceso de confianza, las declaraciones injustificadas de «ninguna diferencia» y las afirmaciones absurdas sobre el «fallo de replicación» cuando los resultados del estudio original y de replicación son altamente compatibles. El mal uso de la significación estadística ha hecho mucho daño a la comunidad científica y a aquellos que confían en el asesoramiento científico. Los valores de p , los intervalos y otras medidas estadísticas tienen su lugar, pero es hora de que vaya la significación estadística.

 

Nature 567 , 305-307 (2019)

doi: 10.1038 / d41586-019-00857-9
Anuncio publicitario

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.