¿Qué catástrofes cabe esperar de las pruebas estadísticas con poca potencia?
Desde cierto punto de vista, lo ideal a la hora de realizar una prueba estadística es que:
- El efecto sea grande.
- La variación de los sujetos sea pequeña.
- El tamaño de la muestra sea generoso.
Pero solo bajo cierto punto de vista: todas las pruebas estadísticas en que pasa eso ya se han hecho antes. Llevamos cientos de años haciendo ciencia y billones de euros invertidos en ella. Lo que nos enseñan las pruebas estadísticas con un SNR (signal to noise ratio) y posibilidad de extraer nuevas observaciones a bajo coste, ya lo sabemos desde hace tiempo. Lo que queda por averiguar de ese antílope del que ya se han saciado la manada de leones que lo cazó son las vísceras, tendones y huesos que roen las hienas. Quienes se dedican a la ciencia están abocados, por aquello de la originalidad, a estudiar problemas en los que algunas de las condiciones anteriores deja de cumplirse. Es decir, muchos de los resultados publicados han estudiado datos en los que:
- El efecto es pequeño y/o
- la variación de los efectos es grande en los sujetos y/o
- el tamaño de la muestra es minúsculo.
La teoría nos dice que eso conlleva que la potencia estadística de las pruebas de hipótesis que se realizan es baja. Es decir, que hay pocas posibilidades de identificar un efecto. Quien se gana la vida realizando este tipo de pruebas se enfrenta a la posibilidad de obtener p valores $\ge 0.05$ impublicables.
Pero, ¿qué sucede si $p < 0.05$ en contextos de baja potencia estadística? Dos cosas:
- El efecto puede estar (tremendamente) sobreestimado.
- La dirección del efecto estimado puede ser la contraria a la verdadera.
Para ilustrar lo que cuento he creado una pequeña aplicación en Shiny cuyo código fuente se puede consultar aquí.
Esencialmente consta de un selector,
donde se puede determinar el tamaño del efecto, la desviación estándar de los datos, el número de sujetos, el nivel de confianza de la prueba y, finalmente, el número de veces que la prueba se va a iterar, es decir, el número de experimentos simulados que se van a realizar con dichos parámetros.
La prueba es prácticamente la más simple que puede realizarse: la estimación del tamaño de un efecto bajo hipótesis de normalidad, etc. vía t-test
. Para que no haya dudas: esencialmente, lo que se estudia es el objeto que en seudocódigo se construye así:
replicate(
n_iter,
t-test(
rnorm(n_subjects, effect_size, sd),
conf.level = alpha))
Los resultados que muestra son la distribución de los efectos significativos estimados junto con la de todos los efectos,
la de los efectos significativos únicamente,
y, finalmente, algunos estadísticos relevantes:
Dentro de estos últimos merece la pena fijarse en los dos últimos: la sobreestimación del efecto en términos absolutos y relativos.
En conclusión, la baja potencia es un arma de doble filo que corta de distinta manera a los agentes implicados:
- Corta a los hacedores de pruebas estadísticas en tanto que reduce la probabilidad de obtener resultados publicables.
- Pero una vez obtenidos resultados publicables y publicados estos, corta a los consumidores de conocimiento porque es probable que este esté torcido. Y no puede saberse ni en qué dirección y ni en qué medida.