p-valores bajo la hipótesis nula tras múltiples comparaciones

Imagina que trabajas en lo que Ionnidis, en su artículo Why Most Published Research Findings Are False, llama un null field; es decir, un área de investigación (tipo homeopatía o percepción extrasensorial) en la que no hay resultados ciertos, en la que las relaciones causa-efecto no pasan de ser presuntas. O tienes un conjunto de datos en un campo no nulo pero que, por algún motivo, no recoge las variables necesarias para explicar un cierto fenómeno.

Aun en esas circunstancias es posible, como comentábamos ayer, comenzar a plantear hipótesis, muchas hipótesis. Realizar un test de Student sobre cada una de ellas es como ejecutar la función

foo <- function(){
    x <- rnorm( 100 )
    y <- rnorm( 100 )
    t.test( x, y, alternative = "greater" )$p.value
}

¿Y qué pasa si se ejecuta _muchas _veces? Esto:

plot(sort(replicate(1000, foo())))

Que gráficamente, para los perezosos, tiene esta pinta:

Este gráfico pone de manifiesto que los p-valores obtenidos siguen una ley uniforme (en [0,1]) tal y como cabe esperar de la teoría. Porque el p-valor no es otra cosa que $latex F^{-1}(X)$ donde en este caso, bajo la hipótesis nula, $latex X$ tiene la distribución dada por $latex F$.

Es decir, _probadas _un número suficiente de hipótesis, siempre habrá alguna que resulte significativa.

El lector interesado podrá encontrar una discusión similar en los enlaces de la entrada que publiqué ayer.