¿Dónde son más frecuentes las muestras de una distribución en dimensiones altas?
Esta es una cosa bastante contraintituiva. Uno diría que en la moda, pero no es exactamente así.
Veamos qué pasa con la distribución normal conforme aumenta la dimensión.
En una dimensión son más frecuentes los valores próximos al centro:
hist(abs(rnorm(10000)), breaks = 100,
main = "distribución de la distancia al centro")
Pero en dimensiones más altas (p.e., 10), la cosa cambia:
library(mvtnorm)
muestra <- rmvnorm(10000, rep(0, 10),
diag(rep(1, 10)))
distancias <- apply(muestra, 1,
function(x) sqrt(sum(x^2)))
hist(distancias, breaks = 100,
main = "distribución de la distancia al centro")