De sesgo, varianza y gilipollas (esta vez, con la gripe como excusa)

Un gilipollas se delatará por preferir una mentira exacta a una verdad aproximada. Y me refiero a La gripe ha causado ya más muertes en España que la pandemia de 2009, donde se lee que

España ha registrado hasta el momento un total de 472 muertes por gripe confirmadas en laboratorio, desde que a primeros de noviembre se registrara el primer fallecimiento de la temporada 2017-2018, que se ha convertido ya en la más letal de la última década, por encima incluso de la pandemia de gripe A (H1N1) que se produjo en 2009.

ILOVEFS + rOpenSpain: 13 y 14 de febrero en Medialab Prado

Los días 13 y 14 de febrero y con motivo del ILOVEFS, se han convocado en Medialab Prado unas sesiones para seguir dando a conocer las bondades del software libre. El programa y el resto de los detalles pueden consultarse aquí.

Yo estaré en una de las mesas/estaciones hablando de R en general y de rOpenSpain muy en particular. Así que los interesados en lo primero en general y lo segundo en particular, seréis muy bienvenidos.

Secciones censales en la Wikipedia

Era una vergüenza que tantos de nosotros estemos dándole vueltas periódicamente al concepto de sección censal y este no tenga una mala entrada en la Wikipedia.

O no la tenía hasta que creé un microartículo en ella.

Estoy seguro que muchos de los lectores de estas páginas saben más (y a ciencia cierta; y pueden, además, encontrar la fuente donde aparece propiamente escrito por la autoridad pertinente) sobre el asunto que lo que aparece ahí reflejado. Y por su cuenta o a través de otros (p.e., servidor) se encargarán de hacerlo constar.

Inferencia fiduciaria: una ocurrencia, afortunadamente, muerta

Hay ocurrencias la mar de extravagantes que sobreviven el paso del tiempo (p.e., la homeopatía o el marxismo). Otras mueren. Como requetemuertas que están, no somos conscientes de que alguna vez existieron.

Una de ellas es la inferencia fiduciaria, un inventillo del mismo Fisher que no lo convenció enteramente ni a él mismo. La Wikipedia lo cita escribiendo que lo tenía not clear in the head (¡ah!, la misma sensación que tuve yo al enfrentarme a los p-valores, a la estadística bajo la perspectiva econométrica (OLS por doquier, etc.) y a algunas cosas más de las que me redimió el reverendo).

Políticas y tarifas; medias y deciles

Aviso: Esta entrada es altamente, puramente especulativa.

Tiempo atrás, se tendía a ponderar el efecto de una política (p.e., la alteración de la tarifa de un servicio público o semipúblico) en términos de su impacto en un usuario medio. A lo Quetelet (en el mejor de los casos).

Ahora está más de moda medirlo en términos de su impacto en el decil mas desgraciadico. A lo maxmin rawlsiano (en el mejor de los casos).

Interacciones "mecánicas" en regresiones logísticas

En general, dos variables interaccionan cuando el efecto de una cambia al modificarse el nivel de la otra. Un caso particular (aunque notable) de interacción es el habitual en los modelos lineales, generalizados o no. En ellos, al introducir en el modelo términos del tipo x1 * x2, estamos indicando que el coeficiente de la segunda variable, $latex x_2$, es $latex \alpha + \beta x_1$. El efecto de un incremento de una unidad de $latex x_2$ depende entonces de $latex x_1$.

Lanzamientos de moneda: no es azar sino física

Lo dicen Diaconis y sus coautores en Dynamical Bias in the Coin Toss.

Que es un artículo en el que modelan la física de lanzamientos de moneda e incluso y llegan a construir una máquina con el aspecto

que siempre obtiene caras (o cruces).

El quid de la historia es que existen condiciones iniciales de lanzamiento (velocidad inicial, velocidad angular) isoresultado (donde resultado es cara o cruz). Como en

Mortalidad y tramos de edad gordotes

Cuando se estudia la mortalidad, hay que tener cuidado con los tramos de edad considerados. Véase, por ejemplo, esto, que se resume en un “tenemos que ajustar el incremento de la edad media en la categoría de las personas en el rango de edad comprendido entre los 45 y los 54 años [para evitar meter la pata mucho]”.

Sí, incluso trabajando con rangos de edad tan estrechos, hay problemas de heterogeneidad que pueden dar lugar a resultados espurios.

Dónde están las letras

Inspirado en esto construí

usando como texto el Quijote y como código una versión mucho más simple y limpia que (aunque inspirado en) la del enlace original:

library(stringr)
library(plyr)
library(ggplot2)

raw <- readLines("http://www.gutenberg.org/cache/epub/2000/pg2000.txt")

# limpieza de encabezamientos
textfile <- raw[-(1:36)]
textfile <- text[1:which(text == "Fin")]

# en una única cadena
textfile <- paste(textfile, collapse= " ")

# limpieza
textfile <- str_to_lower(textfile)
textfile <- str_replace_all(textfile, "[[:punct:]]|[[:digit:]]", " ")

# selección de palabras
words <- unique(unlist(str_split(textfile, " ")))
words <- words[words != ""]

# recolección de estadísticas
res <- ldply(words, function(word){
  tmp <- str_split(word, "")[[1]]
  data.frame(word = word,
              letra = tmp,
              posicion = 1:length(tmp) / length(tmp),
              stringsAsFactors = FALSE)
})

tmp <- table(res$letra)
tmp <- names(tmp[tmp > 10])
res <- res[res$letra %in% tmp,]

ggplot(res, aes(x = posicion)) +
  geom_density(fill = "red") +
  facet_wrap( ~ letra, scales = "free_y") +
  ggtitle("Dónde aparece cada letra dentro de un texto (El Quijote)") +
  ylab("proporción de aparicion") + xlab("% de la longitud de la palabra") +
  scale_fill_brewer(palette = "Set1") + theme_minimal() +
  theme(axis.ticks = element_blank(),
        axis.text.y = element_blank(),
        axis.text.x = element_blank(),
        legend.position = "none",
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank())