Más sobre extensiones (bayesianas, pero no necesariamente) del t-test

En Improving Research Through Safer Learning from Data, Frank Harrell, junto con otros consejos muy provechosos para aquellos investigadores que tengan un compromiso más serio con la rectitud metodológica que con el desarrollo de su carrera profesional, menciona a modo de ejemplo una solución propuesta por Box y Tiao (en el tercer capítulo de esto) al problema del t-test en el caso de que no rija la hipótesis de normalidad. Más propiamente, en casos en los que se sospecha que la desviación con respecto a la normalidad lo es en términos de la curtosis (y no la asimetría).

Son un montón de páginas, 54, para describir y analizar una solución alternativa a la más pedestre: reemplazar la normal por la t (con un número de grados de libertad sin especificar). La distribución alternativa que contemplan Box y Tiao es una generalización de la distribución normal en la que el 2 del exponente de

$$\phi(x) = \exp(x^2 / 2)$$

se reemplaza por un parámetro inespecífico $d$. La distribución normal es solo un caso particular de esta familia ampliada de distribuciones cuando $d = 2$.

En realidad, utilizan una parametrización más conveniente del exponente

$$d = \frac{2}{1 + \beta}$$

donde $-1 < \beta < 1$ y la normal se recupera cuando $\beta = 1$. El perfil de las distribuciones para distintos valores de $\beta$ es

Y prácticamente, todo lo que queda por decir es:

  • Esta solución para hacer más robusto el t-test frente a desviaciones de la normal no parece haber calado tanto como la alternativa (usando la distribución t); de hecho, —salvo error u omisión por mi parte— no a parece en la lista de distribuciones disponibles para simular en Numpyro, Stan o similares.
  • Tal vez porque la sobrecurtosis (el problema para el que recurrir a la distribución t está indicado) es más común que la infracurtosis (que la distribución de Box y Tiao contempla).
  • De todos modos, la discusión sobre esta distribución atenta contra el espíritu de la entrada de Frank Harrell: allí se reclamaba prestar atención a la especificación del modelo. Lo cual se puede entender de dos maneras hasta cierto punto contradictorias: una, extender la clase de distribuciones a considerar en el problema —recurriendo, por ejemplo, a la de Box y Tiao—. Pero una interpretación más fiel al espíritu de lo que se reclama es hacer un esfuerzo por determinar la distribución verdadera a la que responden los datos.

Un ejemplo de lo que eso significa lo ofrecen los mismos Box y Tiao al principio de su discusión. Dicen:

Sin embargo, cabe esperar que cierto tipo de mediciones no sigan una distribución normal. Un ejemplo es la resistencia a la rotura del hilo. Si pensamos en el hilo como si estuviera compuesto por una serie de eslabones (como una cadena), con la rotura ocurriendo en el eslabón más débil, y si la distribución de la resistencia de un eslabón individual fuera normal, entonces la resistencia a la rotura se distribuiría como la distribución de la observación más pequeña de una muestra normal. Esta distribución de valores extremos es asimétrica y altamente leptocúrtica.

Un caso más en el que los primeros principios ofrecen la información necesaria para que un artesano de la estadística moldee a mano una distribución específica para un fin determinado.