Entropía

Usos de la versión barata de la entropía

Aquí argumenté que

$$\sum_i p^2_i$$

es una versión barata de la entropía. Que sin embargo se usa para:

La versión barata de la entropía tiene una ventaja y una desventaja con respecto a la buena; la ventaja, que es más fácil de calcular, comunicar, etc.; la desventaja, que no goza de sus propiedades algebraicas (que transforman la independencia en una suma). Pero esta última es bastante intrascendente para los dos fines que menciono hoy.

Un argumento para usar la normal: la maximización de la entropía

Llegaré a la normal. Antes, algo sobre la entropía.

Nos interesa saber y medir el grado de concentración de una distribución. Por ejemplo, si X es una variable aleatoria con función de densidad $latex f(x)$ y $latex x_1, \dots, x_n$ es una muestra de X, entonces, la expresión

$$ \frac{1}{n} \sum_i f(x_i)$$

da una idea de la concentración vs dispersión de X:

  • Si es grande, muchos de los $latex x_i$ procederán de lugares donde $latex f$ es grande; en un caso discreto, que tal vez ayude a mejorar la intuición sobre la cosa, habría muchos valores repetidos.
  • Si es pequeño, muchos de los $latex x_i$ procederán de puntos de baja probabilidad; en un caso discreto, aparecerían muchos valores $latex x_i$ diversos y de probabilidad baja.

La expresión anterior converge a

¿Dónde son más frecuentes las muestras de una distribución en dimensiones altas?

Esta es una cosa bastante contraintituiva. Uno diría que en la moda, pero no es exactamente así.

Veamos qué pasa con la distribución normal conforme aumenta la dimensión.

En una dimensión son más frecuentes los valores próximos al centro:

hist(abs(rnorm(10000)), breaks = 100,
    main = "distribución de la distancia al centro")

Pero en dimensiones más altas (p.e., 10), la cosa cambia:

library(mvtnorm)
muestra <- rmvnorm(10000, rep(0, 10),
    diag(rep(1, 10)))
distancias <- apply(muestra, 1,
    function(x) sqrt(sum(x^2)))
hist(distancias, breaks = 100,
     main = "distribución de la distancia al centro")