1/e por doquier

Leía ¿Es muy difícil (estadísticamente) no dar ni una?, donde se discute la probabilidad de que $latex s(i) \neq i$ $latex \forall i$ cuando $latex s$ es una permutación. El problema está relacionado, como podrá ver quien visite el enlace, con la probabilidad de repetición del sorteo en el juego del amigo invisible.

Esta probabilidad converge, al crecer $latex n$, a $latex 1/e \approx 0.367879$. ¡0.367879! Eso es… eso es… ¡1 - .632…! Pero .632 es un número como de la familia y relacionado (consúltese el enlace) con el bootstrap.

Nueva charla: "Antikaggle: contra la homeopatía de datos"

La impartiré el día 2017-02-10 en el Campus de Google dentro del Machine Learning Spain Meetup y la he resumido así:

Kaggle es una plataforma fantástica. Lo sabemos y nos lo han hecho saber innumerables veces. Esta charla es, sin embargo, una revisión crítica sobre lo que puede enseñar y lo que no; sobre el valor que aporta (entre otros, a los participantes) y el que no y sobre, finalmente, la ciencia de datos y una degeneración suya que ha encontrado en Kaggle otra vía de propagación y que he dado en llamar homeopatía de datos.

¿Cuánto durará la sólo-nostalgia?

Mi vieja amiga Elena Álvarez me sorprendió el otro día publicando nada menos que en el periódico de mis contraejemplos, el muy apriorístico ElDiario.es, el artículo “Sólo” y la tilde de la nostalgia. Trata temas que hay había hablado con ella y sobre los que vi que había publicado bastante en otros sitios.

Falla (vosotros no lo sabéis, pero ella y yo sí) en que Elena, tan declaradamente descriptivista, se pone la gorra normativista y atiza a los renuentes al cambio a golpe de manual aristotélico. Lo cual, inconsistencias teóricas suyas aparte, porque no dejan de ser tema personal, no juzgo malo sino bueno.

Infradispersión de conteos: ¿buenos ejemplos?

La distribución de Poisson se utiliza de oficio cuando se quiere modelar datos relativos a conteos. Sin embargo, tiene un problema serio: la varianza está fijada a la media: ambas son $latex \lambda$, el parámetro de la distribución.

Muy frecuentemente se observan datos con sobredispersión. Si $latex \lambda$ es 1000, el número esperado de eventos está contenido en un intervalo demasiado estrecho,

qpois(c(0.025, 0.975), 1000)
#[1]  938 1062

como para ser realista en muchas aplicaciones.

Sobre las miserias de la universidad

En los últimos años de carrera me metí en política: fui delegado de mis distintas clases y participé como tal, aunque con más oído que voz y más voz que voto, en las discusiones de antaño, muy previas al plan Bolonia, sobre la reorganización del plan de estudios de la licenciatura de matemáticas.

Yo era un chaval que, a falta de la experiencia que da la vida y, supongo, por suplirla, estaba lleno de ideales. Allí aprendí cosas como que los estudiantes, éramos lo peor del mundo. No se atribuían función adicional alguna a la de vetar todo aquello que supusiese un estorbo adicional para alcanzar aquello que a los más les bastaba: el titulito. Si por entonces aún me quedaba alguna, perdí absolutamente y hasta la fecha toda fe en la bondad de las intenciones del movimiento estudiantil (tanto en cuestiones académicas como en las demás, todo sea dicho de paso).

¿Cuántas veces habré metido la pata?

Ayer escribí

$$ N = \sum_i \frac{1}{p_i^2}$$

donde lo suyo era (ya está corregido)

$$ N = \frac{1}{\sum_i p_i^2}.$$

Eso me ha hecho replantearme cuántas veces habré metido la pata después de las 1300 entradas largas que llevo escritas. No me refiero a puntos de vista discutibles; tampoco a errores a veces excusables de concordancia; me refiero a cosas como las de ayer, las que sonrojan.

Una vez, recuerdo, escribí puya donde quería decir pulla. Otra vez leí mal esto. Así que ya no puedo decir que 3/n sería una buena estimación.

El número efectivo de partidos

El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula

$$ N = \frac{1}{\sum_i p_i^2}$$

y excipiente alrededor.

Aplicada a España (usando datos del CIS como proxy),

Como casi siempre, el código:

library(rvest)
library(rvest)
library(reshape2)
library(plyr)
library(zoo)

url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html"

raw <- read_html(url)
tmp <- html_nodes(raw, "table")
tmp <- html_table(tmp[[2]], fill = TRUE)

colnames(tmp)[1] <- "partido"

tmp <- tmp[!is.na(tmp$partido),]
tmp <- tmp[1:30,]

tmp <- melt(tmp, id.vars = "partido")
tmp <- tmp[tmp$value != ".",]
tmp$value <- as.numeric(tmp$value)

tmp$variable <- gsub("ene", "01-", tmp$variable)
tmp$variable <- gsub("abr", "04-", tmp$variable)
tmp$variable <- gsub("jul", "07-", tmp$variable)
tmp$variable <- gsub("oct", "10-", tmp$variable)

tmp$variable <- gsub("-0", "-200", tmp$variable)
tmp$variable <- gsub("-1", "-201", tmp$variable)
tmp$variable <- gsub("-9", "-199", tmp$variable)

tmp$variable <- paste0("01-", tmp$variable)

tmp$variable <- as.Date(tmp$variable, format = "%d-%m-%Y")

dat <- tmp

dat <- ddply(dat, .(variable), transform, total = value / sum(value))
res <- ddply(dat, .(variable), summarize, enp = 1 / (sum(total^2)))

res <- zoo(res$enp, order.by = res$variable)

plot(res, main = "Número efectivo de partidos\nen España(1996-2016)",
        xlab = "", ylab = "número efectivo de partidos")

Las tres (o cuatro) eras de la estadística

Las cosas, frecuentemente, son como son y no de otra manera, especulativamente, mejor por razones históricas. Es lo que hay. La respuesta a muchas preguntas es “porque A llegó antes que B”.

La estadística (y particularmente, la que se enseña) es como es y no de otra manera, especulativamente, mejor, también por razones históricas. Por eso siempre pierdo algo de tiempo hablando (¡es uno de mis personajes favoritos del XIX!) de Quetelet y los suyos; luego, de Fisher y compañía; finalmente, de Efron y los demás.

Polinomios monótonos

R

Recibí un mensaje el otro día sobre polinomios monótonos. Mejor dicho, sobre el ajuste de datos usando polinomios monótonos. Frente a un modelo del tipo y ~ x (x e y reales) donde la relación entre las dos variables es

  • manifiestamente no lineal y
  • necesariamente monótina, p.e., creciente (por consideraciones previas),

cabe considerar ajustar un polinomio monótono, i.e., realizar una regresión polinómica con la restricción adicional de que el polinomio de ajuste resultante sea monótono.