Estadística

Brechas salariales: así las calcularía yo

He visto N estimaciones de las brechas salariales (de género) con resultados de lo más variado. En algunos casos he podido estudiar los métodos utilizados y, la verdad, dan grima (cosas con tufo econométrico viejuno y demás).

Y me refiero, particularmente, a aquellos métodos que analizan la pregunta interesante: ¿hay igualdad de salario a igualdad de méritos? Hay publicaciones que llaman brecha a otra cosa (masa salarial dividido por sujetos), que no merece ni ser comentada aquí.

¿Soy parte del concilábulo heteropatriarcal?

En una de esas comidas navideñas tuve que asistir pasivamente a una conversación en la que se dibujaba una peculiar realidad alternativa: existiría algo así como un conciliábulo (el Márketing) con capacidad de memoria, entendimiento y voluntad propias e interés por implementar una particular agenda de corte heteropatriarcal. Producto de la cual, por ejemplo, las afeitadoras de color rosa para mujeres vendrían a resultar más caras que las azules para hombres, etc. El Márketing sería un grupito de señores fumando puros, jugando al mus que, entre partida y partida, deciden el color, empaquetado, estampado, forma y precio de cada producto imaginable vendido en cualquier tienda del reino; el descuento que se puede aplicar a cada cual según su raza, sexo/orientación sexual, religión, enfermedad crónica y afiliación sindical. Con un solo objetivo: perjudicar a los/as consabidos/as.

Kriging con Stan

Este mes de julio, cuórum mediante, impartiré en la UPC un curso que he maltitulado, mor de brevedad, Estadística Bayesiana Aplicada.

Los cursos de estadística bayesiana son teoría, mucha teoría, y unos ejemplos tontos que quieren justificarla. Del tipo: hagamos lo que ya sabemos hacer de otra manera más; busquemos una alternativa molona al p-valor (y usémosla como usar íamos un p-valor, por supuesto), etc.

Mi curso debería haberse titulado algo así como: Problemas reales (aunque simplificados por motivos estrictamente pedagógicos) resueltos con tecnología bayesiana porque, si no, dígame Vd. cómo lo haría: ¿con optim? Jajajajaja…

Estructura poblacional de España: 2010-2050

Si se puede hacer para Japón, también se puede hacer para España:

El código,

library(idbr)
library(ggplot2)
library(animation)
library(ggthemes)

idb_api_key("pídela en https://www.census.gov/data/developers/data-sets/international-database.html")

male <- idb1('SP', 2010:2050, sex = 'male')
male$SEX <- "hombres"
male$POP <- -male$POP

female <- idb1('SP', 2010:2050, sex = 'female')
female$SEX <- "mujeres"

spain <- rbind(male, female)

saveGIF({

  for (i in 2010:2050) {

    title <- as.character(i)

    year_data <- spain[spain$time == i, ]

    g1 <- ggplot(year_data, aes(x = AGE, y = POP, fill = SEX, width = 1)) +
      coord_fixed() +
      coord_flip() +
      annotate('text', x = 98, y = -300000,
                label = 'Datos: US Census Bureau IDB; idbr R package', size = 3) +
      geom_bar(data = subset(year_data, SEX == "mujeres"), stat = "identity") +
      geom_bar(data = subset(year_data, SEX == "hombres"), stat = "identity") +
      scale_y_continuous(breaks = seq(-300000, 300000, 150000),
                          labels = paste0(as.character(c(seq(300, 0, -150), c(150, 300))), "k"),
                          limits = c(min(spain$POP), max(spain$POP))) +
      theme_economist(base_size = 14) +
      scale_fill_manual(values = c('#ff9896', '#d62728')) +
      ggtitle(paste0('Estructura poblacional de España en, ', title)) +
      ylab('Población') +
      xlab('Edad') +
      theme(legend.position = "bottom", legend.title = element_blank()) +
      guides(fill = guide_legend(reverse = TRUE))

    print(g1)

  }

}, movie.name = 'spain_pyramid.gif', interval = 0.1,
    ani.width = 700, ani.height = 600)

LDA para dummies (y con un ejemplo)

Tema de hoy: LDA (Latent Dirichlet Allocation). A raíz de la pregunta de una atenta lectora que quiere saber de qué va la cosa. Con un ejemplo: reproducir el mecanismo mental para tratar de averiguar a qué partido vota alguien.

Supongamos que hay cuatro partidos (PP, PSOE, Ciudadanos, IU). Supongamos que una persona al azar votaría a uno de los cuatro. Pero no sabemos a cuál. De todos modos, como leemos las encuestas, sabemos que la probabilidad de que vote PP es alrededor del 30% etc.

¿Que no suben los salarios?

Hoy me he desayunado con El último misterio de la economía: ¿por qué no suben los salarios? Y me ha parecido una noticia muy rara.

Porque en nuestro sector los salarios no paran de subir. No hay colega que no haya cambiado recientemente de curro a mejor. Otro me comentaba que vivimos en una burbuja porque, lo razonaba así, hasta el más tonto curra. Y repasé mentalmente una lista de tontos y sí, todos curraban. No pude no darle la razón.

Diagramas de cajas: lo que hay que saber y muchas otras cosas que no hacen tanta falta pero que son entretenidas

Me sorprende averiguar que hay gente que no comprende el concepto de ruta (de ficheros) y la diferencia entre las relativas y las absolutas. Me sorprende igualmente tropezarme con gente a las que los diagramas de caja (boxplots, en bárbaro) no les resulten lo más natural del mundo. ¡Hayla!

Pero a veces nos equivocamos y nos da por pensar que siempre han estado ahí (¡no! son bastante recientes) y no se nos ocurre que haya quien pueda estar pensando en mejoras y extensiones. Para acrecentar nuestra culturilla estadística y ver cosas más o menos ocurrentes se están haciendo alrededor de los diagramas de caja, bien se puede leer 40 years of boxplots.

De sesgo, varianza y gilipollas (esta vez, con la gripe como excusa)

Un gilipollas se delatará por preferir una mentira exacta a una verdad aproximada. Y me refiero a La gripe ha causado ya más muertes en España que la pandemia de 2009, donde se lee que

España ha registrado hasta el momento un total de 472 muertes por gripe confirmadas en laboratorio, desde que a primeros de noviembre se registrara el primer fallecimiento de la temporada 2017-2018, que se ha convertido ya en la más letal de la última década, por encima incluso de la pandemia de gripe A (H1N1) que se produjo en 2009.

Secciones censales en la Wikipedia

Era una vergüenza que tantos de nosotros estemos dándole vueltas periódicamente al concepto de sección censal y este no tenga una mala entrada en la Wikipedia.

O no la tenía hasta que creé un microartículo en ella.

Estoy seguro que muchos de los lectores de estas páginas saben más (y a ciencia cierta; y pueden, además, encontrar la fuente donde aparece propiamente escrito por la autoridad pertinente) sobre el asunto que lo que aparece ahí reflejado. Y por su cuenta o a través de otros (p.e., servidor) se encargarán de hacerlo constar.

Inferencia fiduciaria: una ocurrencia, afortunadamente, muerta

Hay ocurrencias la mar de extravagantes que sobreviven el paso del tiempo (p.e., la homeopatía o el marxismo). Otras mueren. Como requetemuertas que están, no somos conscientes de que alguna vez existieron.

Una de ellas es la inferencia fiduciaria, un inventillo del mismo Fisher que no lo convenció enteramente ni a él mismo. La Wikipedia lo cita escribiendo que lo tenía not clear in the head (¡ah!, la misma sensación que tuve yo al enfrentarme a los p-valores, a la estadística bajo la perspectiva econométrica (OLS por doquier, etc.) y a algunas cosas más de las que me redimió el reverendo).