Distribuciones

I. Hace un tiempo, reproduje el enunciado del siguiente teorema: La suma de lognormales (independientes y con parámetros similares) es lognormal. El teorema no es cierto. No puede serlo tanto por motivos teóricos como meramente empíricos. Es fácil tomar 3000 muestras de una lognormal con parámetros cualesquiera, sumarlos por tríos para obtener 1000 muestras $x_i$ de su suma, ajustar la mejor lognormal que se ajusta a ellos (pista: si se usa MV, los parámetros ajustados son la media y la desviación estándar de $\log x_i$), comparar las dos muestras (p.

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala. La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión.

Por motivos que quedarán claros en entradas futuras, he estado investigando sobre medidas de proximidad entre distribuciones de probabilidad. En mi caso concreto, además, multidimensionales (y de dimensión alta, en $R^N$, con $N$ del orden de docenas o centenas). Supongamos que tenemos dos variables aleatorias $X, Y \in R^N$ y queremos ver estudiar en qué medida son próximas sus distribuciones. Idealmente, además, utilizando un método que pueda utilizarse a través de muestras de dichas variables.

[Aquí, entre otras cosas, se abunda una serie de tres que realicé hace seis años sobre el asunto y que puede consultarse aquí.] Esta entrada trata sobre cómo se puede caracterizar en términos matemáticos, medir y, en última instancia, operar sobre un concepto tal lábil como lo es el del estilo (o textura) de una imagen. Por ejemplo, lo que caracteriza a una pintura negra de Goya, un primer plano de un plato de macarrones o una viñeta de un cómic de Mortadelo.

Existen esquinitas de la estadística con las que uno solo tropieza cuando su práctica lo expone a sus aplicaciones menos habituales. Estos días ha sido el asunto de los l-momentos. En esta entrada exploro la intuición acerca del concepto —porque uno no la hallará ni aquí ni en ninguno de los artículos que he consultado al respecto— y, más en general, el interés que pueda tener fuera del ámbito en el que los he encontrado.

Estamos acostumbrados a la caracterización habitual de la distribución binomial negativa como el aburrido número de fracasos en una serie de ensayos de Bernoulli hasta lograr $r$ éxitos. Esto, junto con un poco de matemáticas de primero de BUP —todo aquello de combinaciones, etc.— lleva a la expresión conocida de su función de probabilidad, $$\binom{n + x - 1}{x} p^r (1 - p)^x.$$ Pero esta caracterización, muy útil para resolver problemas de probabilidad construidos artificialmente para demostrar que los alumnos han estudiado la lección con aprovechamiento, se queda muy corta a la hora de proporcionar intuiciones sobre cómo, cuándo y por qué utilizarla en el ámbito en el que es más útil: el análisis de los procesos puntuales.

Llegaré a la normal. Antes, algo sobre la entropía. Nos interesa saber y medir el grado de concentración de una distribución. Por ejemplo, si X es una variable aleatoria con función de densidad $latex f(x)$ y $latex x_1, \dots, x_n$ es una muestra de X, entonces, la expresión $$ \frac{1}{n} \sum_i f(x_i)$$ da una idea de la concentración vs dispersión de X: Si es grande, muchos de los $latex x_i$ procederán de lugares donde $latex f$ es grande; en un caso discreto, que tal vez ayude a mejorar la intuición sobre la cosa, habría muchos valores repetidos.

I. Si $X_1, \dots, X_{12}$ son uniformes en [0,1] e independientes, entonces $latex X_1 + \dots + X_{12} - 6$ es una variable aleatoria normal. Puede entenderse como un corolario práctico del teorema central del límite habida cuenta de que la varianza de $latex X_i$ es 1/12 y su media es 1/2. Es útil porque, se ve, en algunos dispositivos embebidos no se dispone de una librería matemática extensa y, se ve, a veces hace falta muestrear la normal.

Va de muestrear los números $latex 1, \dots, n$ que tienen asignadas probabilidades $latex p_1, \dots, p_n$. Una manera muy impráctica (en R, basta usar sample) y nada intuitiva de hacerlo es recurriendo a la distribución de Gumbel: library(evd) pes <- runif(5) pes <- pes / sum(pes) gammas <- log(pes) + 2 x <- rgumbel(length(pes)) muestra <- which.max(gammas + x) O, en masa, aplicando get_samples <- function(n){ replicate(n, { x <- rgumbel(length(pes)) which.

En el primer número de la novísima revista Spanish Journal of Statistics aparece un artículo con un título tentador: Recovering income distributions from aggregated data via micro-simulations. Es decir, un artículo que nos puede permitir, por ejemplo, muestrear lo que la AEAT llama rendimientos a partir de lo que publica (aquí): Uno de los métodos de los que sostienen el ignominioso a mí me funciona está basado en el modelo

Como tan a menudo se nos olvida, Taleb nos recuerda, breve y conciso, un par de cositas sobre las predicciones puntuales aquí. Además, casi todo lo que tiene que decir se resume en:

Tengo una entrada perpetuamente pendiente que se pospone, entre otras cosas, porque aún no he encontrado una manera satisfactoria para muestrear histogramas. Una de las vías sería dar con (y ajustar) una distribución subyacente que generase unos histogramas similares. Hoy voy a contar un ejemplo de cómo puede fallar tal estrategia. Por un lado he bajado datos de la distribución de renta en España del INE: Por otro, me he dejado convencer temporalmente de que la distribución de Burr podría ser conveniente para modelar la distribución de ingresos de los hogares (Wikipedia dixit!

Era como y se ha convertido en ¡Qué horror! Coda: En otra página de la Wikipedia en la que he caído después por azar he leído la siguiente frase (que por algún motivo encuentro relevante insertar aquí): Los ríos arrastran sedimentos que consiguen colmatar y rellenar de lodo los lagos. Además, la proliferación de ciertas plantas, como el lirio acuático, los obstruye por completo.

Distribuciones

El "teorema" sobre las sumas de lognormales no es solo falso sino que, además, es innecesario (en muchos casos)

¿Qué distribución usar? ¡Examina el proceso generativo!

Medidas de similitud entre distribuciones

El estilo es la coocurrencia de patrones

L-momentos: en busca de la intuición

La (mejor) caracterización de la binomial negativa (en términos de la Poisson y la gamma)

Un argumento para usar la normal: la maximización de la entropía

Tres "teoremas" que son casi ciertos

Esto no es práctico, pero sí bonito; bonito, además, de esa forma inasequible a la chusma

Distribuciones (¿de renta? ¿solo de renta?) a partir de histogramas

Sobre predicciones puntuales

De histogramas a distribuciones (usando la de Burr)

¿Qué demonios le ha pasado a la página de la distribución beta en la Wikipedia?