Varianza

El extraño caso de la media empírica menguante

La distribución lognormal es la exponencial de una distribución normal. Su media, Wikipedia dixit, es $latex \exp(\mu + \sigma^2 /2)$.

Dada una muestra de la distribución lognormal (y supuesto, por simplificar, $latex \mu=0$), podemos calcular

  • su media y
  • una estimación de su $latex \sigma$ y calcular $latex \exp(\sigma^2 /2)$

y uno pensaría que los valores deberían ser similares. Mas pero sin embargo,

library(ggplot2)

set.seed(123)

sigmas <- seq(1, 10, by = 0.1)

res <- sapply(sigmas, function(sigma){
  a <- exp(rnorm(1e6, 0, sigma))
  mean(a) / exp(var(log(a))/2)
})

tmp <- data.frame(sigmas = sigmas, medias = res)

ggplot(tmp, aes(x = sigmas, y = medias)) +
  geom_point() + geom_smooth()

produce

¿Tanto ha llovido (en términos de precisión numérica) desde 2008?

Acabo de ejecutar

set.seed(1234)

x <- runif(1e6)
x.shift <- 1e9 + x

sd(x)
sd(x.shift)

sqrt(sum((x - mean(x))^2) / (length(x - 1)))
sqrt(sum((x.shift - mean(x.shift))^2) / (length(x - 1)))

sd.sum.squares <- function(x){
  n <- length(x)
  suma <- sum(x)
  suma.cuadrados <- sum(x^2)
  sqrt((n * suma.cuadrados - suma^2) / (n * (n-1)))
}

sd.sum.squares(x)
sd.sum.squares(x.shift)

inspirado por esto y me pregunto: ¿tanto ha llovido en términos de precisión numérica desde 2008?

Hoy que me he puesto traje y corbata...

… (por motivos que importan pero no debo revelar a mis lectores) aprovecho para criticar a esos tipos que, vistiendo como yo, insisten reiteradamente a sus analistas en que les proporcionen un número. Un número que tiene que ser cerrado, indiscutible, pivotal.

A esos que gastan traje y corbata como yo hoy les horroriza la varianza. Le espantan, seguro, esos punticos que tan opotunamente coloca Kiko Llaneras alrededor de las medias de este estupendo

Encuestas, censos, elecciones

Hace unas semanas tuve un lapso de creatividad. Dejé de escribir durante un tiempo y me dediqué al sucedáneo: leer. Terminé, para variar, unos cuantos libros.

Uno de ellos es Proofiness, the Dark Arts of Mathematical Deception que está más o menos bien. En su mayor parte abunda sobre fenómenos conocidos, estudiados y sobradamente denunciados: que hay que recurre a argumentos basados en números, estadísticas o construcciones matemáticas más o menos sofisticadas para dar visos de verdad a mentiras flagrantes. Los ejemplos resultarán más afines culturalmente a quienes vivan en la orilla equivocada del Atlántico, aunque son los suficientemente conocidos para que sepamos de qué se habla y que el género es ensayo y no ficción.

Varianza y cuantiles (del capitalismo de baja calidad en España)

Uno de los argumentos más habitualmente esgrimidos en contra del capitalismo es su caracter cíclico. Cuando dicen cíclico, entiendo, quieren decir aleatorio (¿quién sabe predecir los ciclos?). Eso no sé si lo hace, en la terminología de Taleb, frágil o antifrágil. En cualquier caso, uno de los objetivos de quienes llevan las riendas de la política económica es embridar la aleatoriedad con, por ejemplo, medidas anticíclicas.

Pero no todas las aleatoridades son iguales. En Capital Allocation and Productivity in South Europe, sus autores descubren varianzas desiguales en la producitividad del capital en distintos países: alta en los países del sur de Europa, baja en los del norte. ¿Diríase que la asignación de recursos es más desigual en los primeros? ¿Será causa —o efecto, o ambas cosas, o será la misma cosa— de la crisis que hemos padecido también desigualmente?

Golpes de suerte

Rescato para el día de hoy los dos primeros párrafos de un artículo de Ignacio Vidal-Foch. Tiene más, pero menos interesante en nuestro contexto.

Son:

La vida —por lo que de ella he alcanzado a ver— es rigurosamente moral. Es como las fábulas, donde la hormiguita sumisa y laboriosa que aprovecha el buen tiempo para acarrear y almacenar comida, cuando llegue el invierno sobrevivirá, mientras que la cigarra despreocupada que se pasa el verano cantando y tocando el ukelele sucumbirá a la primera helada. La organización social es un complejo esfuerzo para pautar la vida y excluir de ella el azar; de ahí instituciones como las compañías de seguros, la policía, la sanidad pública y la jubilación, o la herencia, con la que los padres quieren proteger a sus vástagos de la incertidumbre y que éstos suelen recibir como algo natural y merecido, y no como lo que es, una arbitrariedad que habría que ilegalizar en nombre del principio de la igualdad de oportunidades.

La variación y sus negacionistas

Las entradas de esta semana han girado alrededor de un tema: la comparación bajo incertidumbre. La remato recomendando un artículo de Stephen Few, Variation and Its Discontents, que tiene un subtítulo de lo más oportuno: Funnel Plots for Fair Comparisons.

Nota: Los lectores más fieles de estas páginas recordarán entradas viejas, como esta, que también sugerían el uso de gráficos de embudo (o trompeta).

¿13.100 más/menos cuántos parados menos?

¿Cuál es la cifra de variación del número de parados de la que hablan la última EPA y los medios? 13100.

¿Más menos cuánto? Según el INE, el error de muestreo relativo, $latex \sqrt{V(\hat{\sigma}}$ a nivel nacional en términos porcentuales es

error_relativo

Es decir, el intervalo de confianza para la cifra de parados tendría una anchura como de 100k sujetos. Obviamente, eso impide calcular variaciones de un orden de magnitud menor.

Varianzas y variaciones de netos

Muchas cifras de interés son netos de dos magnitudes. Por ejemplo el déficit/superávit comercial, que es la diferencia entre exportaciones e importaciones; o los beneficios/pérdidas de una empresa, diferencia de ingresos y gastos.

Por un lado, las magnitudes subyacentes pueden estar sujetas a error estadístico. Incluso aunque el coeficiente de variación sea minúsculo para cada una de ellas por separado (p.e., del orden del 1%), pudiera ser que el error correspondiente a la diferencia (¡las varianzas se suman!) hiciesen del neto un valor no significativamente distinto de cero en muchas ocasiones.

Ruido en las estadísticas oficiales

Hacía tiempo que no hablaba de este tema. Pero han salido de mi LIFO de artículos potencialmente interesantes dos a los que merece la pena echar un ojo. El primero, este, arranca con

Government statistical agencies commonly report official economic statistics as point estimates. Agency documents describing data and methods may acknowledge that estimates are subject to error, but they typically do not quantify error magnitudes. News releases present estimates with little if any mention of potential error.