Números

Población: el padrón y la otra cosa

En un proyecto necesitábamos cifras de población por provincias durante los últimos años. Así que usamos los datos del padrón proporcionados por el INE (el INE es guay; AEMET es kk). Pero alguien nos dijo que era mejor usar los otros datos de población, los nosequé (sí, las estimaciones intercensales, si es que se llaman así) porque eran más mejores.

El padrón es un registro administrativo. Lo otro es algo soportado por lo que yo llamo método y el resto de la humanidad, metodología.

A mayor efecto (sobre todo, si es novedoso), mayor escepticismo

El NYT resume un artículo recentísimo sobre esas cosas que preocupan tanto en EE.UU. y que viene a decir, en términos sucintísimos, lo siguiente:

  • A los niños negros les va mucho (mucho, mucho: el efecto tiene una magnitud enorme) peor en la vida que a sus equivalentes blancos independientemente de la clase social, riqueza del hogar y otros factores predictores del éxito.
  • En cambio, el efecto de la raza es inapreciable para las niñas.

Hoy todo el mundo habla del asunto. Y lo da por bueno. Pero yo advierto un elemento de sospecha: que un efecto tan, tan grande no haya sido advertido antes. De hecho, los comentarios que he leído sobre el estudio tienden a conjungar verbos como contradecir, utilizan expresiones como echar por tierra, etc.

Lecciones estadísticas que pueden extraerse de los disturbios de Lavapiés

Mi barrio ha sufrido una serie de sobresaltos provocados por la incontinencia de la plebe frumentaria a raíz de la muerte por infarto de un mantero. Ha salido en las noticias y no merece la pena abundar en ello.

Y no mencionaría el asunto salvo porque el otro día, de casualidad, advertí que el antedicho mantero y yo compartimos sección censal. Lo cual invita a una reflexión de corte estadístico. Porque las secciones censales son las unidades más básicas de las que existe información estadística (número de personas, distribución por sexos, edades, etc.) toda ella convenientemente promediada (renta media, etc.). La vieja historia del si yo me como un pollo y tú ninguno, un estadístico diría que nos estamos comiendo los dos medio, pero de otra manera.

Estructura poblacional de España: 2010-2050

Si se puede hacer para Japón, también se puede hacer para España:

El código,

library(idbr)
library(ggplot2)
library(animation)
library(ggthemes)

idb_api_key("pídela en https://www.census.gov/data/developers/data-sets/international-database.html")

male <- idb1('SP', 2010:2050, sex = 'male')
male$SEX <- "hombres"
male$POP <- -male$POP

female <- idb1('SP', 2010:2050, sex = 'female')
female$SEX <- "mujeres"

spain <- rbind(male, female)

saveGIF({

  for (i in 2010:2050) {

    title <- as.character(i)

    year_data <- spain[spain$time == i, ]

    g1 <- ggplot(year_data, aes(x = AGE, y = POP, fill = SEX, width = 1)) +
      coord_fixed() +
      coord_flip() +
      annotate('text', x = 98, y = -300000,
                label = 'Datos: US Census Bureau IDB; idbr R package', size = 3) +
      geom_bar(data = subset(year_data, SEX == "mujeres"), stat = "identity") +
      geom_bar(data = subset(year_data, SEX == "hombres"), stat = "identity") +
      scale_y_continuous(breaks = seq(-300000, 300000, 150000),
                          labels = paste0(as.character(c(seq(300, 0, -150), c(150, 300))), "k"),
                          limits = c(min(spain$POP), max(spain$POP))) +
      theme_economist(base_size = 14) +
      scale_fill_manual(values = c('#ff9896', '#d62728')) +
      ggtitle(paste0('Estructura poblacional de España en, ', title)) +
      ylab('Población') +
      xlab('Edad') +
      theme(legend.position = "bottom", legend.title = element_blank()) +
      guides(fill = guide_legend(reverse = TRUE))

    print(g1)

  }

}, movie.name = 'spain_pyramid.gif', interval = 0.1,
    ani.width = 700, ani.height = 600)

Más sobre sesgo, varianza y gripe: estimaciones a ojímetro

Después de mi entrada del otro día sobre sesgo, varianza y gripe (¡y gilipollas!) hablé al respecto con una periodista que me tropecé.

Le conté, esencialmente, lo que decía mi entrada: que 472 fallecidos por gripe (o fallecimientos en los que la gripe forma parte de la secuencia causal) es una infraestimación supina. Que el número (superimpreciso, por infinidad de razones) es muy superior y añadí, después de un par de humms mientras calculaba rápidamente, que la cifra real tenía que estar en el entorno de los 10k.

¿Que no suben los salarios?

Hoy me he desayunado con El último misterio de la economía: ¿por qué no suben los salarios? Y me ha parecido una noticia muy rara.

Porque en nuestro sector los salarios no paran de subir. No hay colega que no haya cambiado recientemente de curro a mejor. Otro me comentaba que vivimos en una burbuja porque, lo razonaba así, hasta el más tonto curra. Y repasé mentalmente una lista de tontos y sí, todos curraban. No pude no darle la razón.

De sesgo, varianza y gilipollas (esta vez, con la gripe como excusa)

Un gilipollas se delatará por preferir una mentira exacta a una verdad aproximada. Y me refiero a La gripe ha causado ya más muertes en España que la pandemia de 2009, donde se lee que

España ha registrado hasta el momento un total de 472 muertes por gripe confirmadas en laboratorio, desde que a primeros de noviembre se registrara el primer fallecimiento de la temporada 2017-2018, que se ha convertido ya en la más letal de la última década, por encima incluso de la pandemia de gripe A (H1N1) que se produjo en 2009.

Políticas y tarifas; medias y deciles

Aviso: Esta entrada es altamente, puramente especulativa.

Tiempo atrás, se tendía a ponderar el efecto de una política (p.e., la alteración de la tarifa de un servicio público o semipúblico) en términos de su impacto en un usuario medio. A lo Quetelet (en el mejor de los casos).

Ahora está más de moda medirlo en términos de su impacto en el decil mas desgraciadico. A lo maxmin rawlsiano (en el mejor de los casos).

Mortalidad en carretera (contada de una manera distinta)

Con motivo de fin de año se ha hablado de fallecidos en accidentes de tráfico como por ejemplo en El Mundo o en El País. Y sí, parece que el número observado de muertos ha aumentado.

Lo cual es mucho menos relevante de lo que se da a entender. Si tiras una moneda al aire 100 veces y sacas 48 caras y luego repites el experimento, podrías sacar 53 (y habría aumentado el número observado de caras) o 45 (y habría disminuido). Lo relevante es si ha cambiado o no la probabilidad de cara de la moneda. De lo cual, y volviendo al caso de la siniestralidad, ya me ocupé en su día.

Preludio (de más por venir)

El preludio esto:

Que tiene el interés y la interpretación (muchas de ellas, como se podrá barruntar más abajo, de corte técnico) que cada uno quiera darle.

La cuestión es que he ocerreado todas las portadas de El País y puedo buscar en el texto (adviértase la cursiva) resultante. Creo contar con una voluntaria para construir una aplicación web similar a la de los n-gramas de Google.

Igual subo los datos a algún sitio en algún momento. En tanto, si alguien los quiere, que me los pida.

¿Lo racional? Que jueguen a la lotería los demás

Yo mismo, lo confieso, he sido uno de los cenizos participantes en esa habitual letanía prenavideña sobre lo conveniente o no de comprar lotería en las que tanto se apela a la racionalidad. En una u otra dirección. Véase, cosecha de la campaña del año pasado, esto, esto, o, más tangencialmente, esto (y sus enlaces).

Cuando lo verdaderamente racional es hacer por que compren lotería, precisamente, los demás.

Redes sin neutralidad de red que funcionan tan ricamente

Existen muchas redes de distribución. La red vial es una de ellas. La de pan, leche y huevos, otra. La de electricidad. La telefónica. Y la de paquetes de datos internet.

Prácticamente ninguna se rige por principios de neutralidad de red. En la viaria, no es solo que los vehículos no puedan circular por donde y cuando quieran, sino que existen restricciones como el carril bus, el Bus Vao, lo que se perpetra diariamente en la Gran Vía de Madrid durante el periodo navideño, etc. y se aplican excepciones para los vehículos eléctricos y los conducidos por gentes con habilidades distintas de otros o como quiera que se los denomine el año en que leas esto. Y se hace para que el tráfico sea más fluido y en pretendido beneficio de todos, no para lo contrario.