Distribuciones

¿Qué demonios le ha pasado a la página de la distribución beta en la Wikipedia?

Era como

y se ha convertido en

¡Qué horror!

Coda: En otra página de la Wikipedia en la que he caído después por azar he leído la siguiente frase (que por algún motivo encuentro relevante insertar aquí):

Los ríos arrastran sedimentos que consiguen colmatar y rellenar de lodo los lagos. Además, la proliferación de ciertas plantas, como el lirio acuático, los obstruye por completo.

¿Qué puede colgar de un árbol?

R

Predicciones puntuales:

O (sub)modelos:

Y parece que ahora también distribuciones:

Notas:

  • Obviamente, la clasificación anterior no es mutuamente excluyente.
  • La tercera gráfica está extraída de Transformation Forests, un artículo donde se describe el paquete trtf de R.
  • Los autores dicen que [r]egression models for supervised learning problems with a continuous target are commonly understood as models for the conditional mean of the target given predictors. ¿Vosotros lo hacéis así? Yo no, pero ¡hay tanta gente rara en el mundo!
  • Y añaden que [a] more general understanding of regression models as models for conditional distributions allows much broader inference from such models. Que era lo que creía que todos hacíamos. Menos, tal vez, algún rarito.

La simplicísima mas no por ello menos útil distribución de Dirac

Ayer alguien desconocía la distribución de probabilidad de Dirac. No sé ni si se llama así y no aparece en prácticamente ninguno de los manuales al uso.

Es una distribución de probabilidad aleatoria: concentra toda su masa en un punto determinado. Por ejemplo, en el nueve:

Y es útil por:

  • Ser límite de cosas.
  • Porque las distribuciones discretas (de la Bernoulli en adelante) son mezclas de variables aleatorias de Dirac.
  • Porque los modelos con inflación de ceros (o de aquello de lo que estén inflados) son mezclas con variables aleatorias de Dirac.

Distribuciones hiperbólicas

    curve(-sqrt(x^2 + 1), -5, 5)

pinta una rama de hipérbola,

que, una vez exponenciada, i.e.,

    curve(exp(-sqrt(x^2 + 1)), -5, 5)

da

Es decir, una curva algo menos esbelta que la normal pero que bien podemos dividir por su integral para obtener la llamada distribución hiperbólica.

Tres notas sobre ella:

  • Tiene una historia curiosa. Fue considerada por Ralph Bagnold al estudiar la forma de las dunas y la sedimentación de la arena arrastrada por el viento. El logaritmo de sus curvas, se ve, tenía forma de hipérbola.
  • Lo cual os proporciona un exótico contraejemplo al argumento habitual sobre la naturaleza omniatractora de la normal.
  • La distribución hiperbólica (y sus extensiones) están disponibles en el paquete ghyp, motivado por aplicaciones financieras, como siempre. Esa gente es adicta a distribuciones con colas gruesas. Aunque para lo que les valen luego…

Distribuciones sin media: ¿qué pueden suponer en la práctica?

Aunque esta entrada es sin duda resabida de los más de mis lectores, quedarán los que aún no sepan que ciertas distribuciones no tienen media. Condición necesaria para que una distribución la tenga es que

$$ \int_{-\infty}^\infty |x| f(x) dx$$

tenga un valor finito, cosa que, por ejemplo, no cumple la de Cauchy. Igual hay a quien esto le parece una rareza matemática, un entretenimiento de math kiddies sin implicaciones prácticas. Además, porque para que que la integral anterior diverja se necesita que las distribuciones puedan tomar valores arbitrariamente altos y las que se manejan en la práctica están acotadas si no por el número de átomos del universo por el de céntimos de bolívar venezolano necesarios para comprar todas las cosas que caben en el ancho mundo.

Las distribuciones (y platos) con nombre

Hay platos con nombre. P.e., tortilla de patata o tiramisú. También hay distribuciones (de probabilidad) con nombre. P.e., normal, binomial, Poisson, hipergeométrica.

Hay quienes quieren saber (1) todas (o muchas) de esas distribuciones con nombre y (2), dados unos datos, cuál de ellas siguen. Esta entrada va a tener la url a la que de ahora en adelante remita a quien me las formule.

A pesar de que algunos platos tienen nombre, el otro día se podía probar en el Diverxo espárrago blanco a la mantequilla negra con emulsión de leche de oveja, espardeña y salmonete. Que no es ni tortilla de patata, ni tiramisú ni otra cosa con nombre que se le parezca.

El extraño caso de la media empírica menguante

La distribución lognormal es la exponencial de una distribución normal. Su media, Wikipedia dixit, es $latex \exp(\mu + \sigma^2 /2)$.

Dada una muestra de la distribución lognormal (y supuesto, por simplificar, $latex \mu=0$), podemos calcular

  • su media y
  • una estimación de su $latex \sigma$ y calcular $latex \exp(\sigma^2 /2)$

y uno pensaría que los valores deberían ser similares. Mas pero sin embargo,

library(ggplot2)

set.seed(123)

sigmas <- seq(1, 10, by = 0.1)

res <- sapply(sigmas, function(sigma){
  a <- exp(rnorm(1e6, 0, sigma))
  mean(a) / exp(var(log(a))/2)
})

tmp <- data.frame(sigmas = sigmas, medias = res)

ggplot(tmp, aes(x = sigmas, y = medias)) +
  geom_point() + geom_smooth()

produce

El índice de birrieza para distribuciones de probabilidad

Pido disculpas por usar birrieza, que no es una palabra que no existe. Si a alguien se le ocurre otro término mejor, que lo sugiera. Pero es que hay distribuciones de probabilidad que son una birria. Y de ellas me voy a ocupar hoy.

Pero antes, una digresión breve. Todas las distribuciones de probabilidad, en la práctica, están acotadas. Aunque sea por el número de átomos del universo. ¿Cuál es la importancia de dicha digresión? Que implica que no hay distribución que, en la práctica, se resista el teorema central del límite.