Estadística

Diapositivas de "Antikaggle: contra la homeopatía de datos"

He colgado las diapositivas de Antikaggle: contra la homeopatía de datos. Sobre todo, para que aquellos que aún conserven la pasión por saber más puedan visitar los enlaces que recopilé y que figuran en ella. El vídeo, se dice, aparecerá pronto. Sin él, las diapositivas, puro soporte visual, quedan huérfanas. Tema, tono y contenid son premeditadamente polémicos; las consecuencias, previsibles. Fe de ello dan los comentarios de los asistentes.

¿Hay terroristas islámicos en Poissonistán?

La distribución binomial (de parámetro n, p) es una suma de n variables aleatorias de Bernoulli independientes de parámetro p. Independientes, reitero. La distribución de Poisson es aproximadamente, una distribución binomial con un n muy grande y un p muy pequeño. Los eventos subyacentes siguen siendo independientes, reitero. Viene esto al caso de una tabla que ha circulado por Twitter, en la que se comparan estimaciones de los parámetros $\lambda$ de una serie de distribuciones de Poisson… como si todas lo fuesen. ...

La inesperada correlación de los ratios

Tomemos dos variables aleatorias independientes y positivas, set.seed(123) n <- 100 x <- runif(n) + 0.5 y <- runif(n) + 0.5 No tengo ni que decir que su correlación es prácticamente cero, cor(x,y) #-0.0872707 y que en su diagrama de dispersión tampoco vamos a poder leer otra cosa: Ahora generamos otra variable independiente de las anteriores, z <- runif(n) + 0.5 y calculamos el cociente de las primeras con respecto a esta: xz <- x / z yz <- y / z ¿Independientes? Hummmm… cor(xz, yz) # 0.5277787 Parece que no. Porque valores grandes del cociente aplastan a la vez a los valores de x e y y a la inversa. La correlación entre las nuevas variables crece con la del denominador, de hecho. ...

¿Cuánto durará la solo-nostalgia?

Mi vieja amiga Elena Álvarez me sorprendió el otro día publicando nada menos que en el periódico de mis contraejemplos, el muy apriorístico ElDiario.es, el artículo “Sólo” y la tilde de la nostalgia. Trata temas que hay había hablado con ella y sobre los que vi que había publicado bastante en otros sitios. Falla (vosotros no lo sabéis, pero ella y yo sí) en que Elena, tan declaradamente descriptivista, se pone la gorra normativista y atiza a los renuentes al cambio a golpe de manual aristotélico. Lo cual, inconsistencias teóricas suyas aparte, porque no dejan de ser tema personal, no juzgo malo sino bueno. ...

Infradispersión de conteos: ¿buenos ejemplos?

La distribución de Poisson se utiliza de oficio cuando se quiere modelar datos relativos a conteos. Sin embargo, tiene un problema serio: la varianza está fijada a la media: ambas son $\lambda$, el parámetro de la distribución. Muy frecuentemente se observan datos con sobredispersión. Si $\lambda$ es 1000, el número esperado de eventos está contenido en un intervalo demasiado estrecho, qpois(c(0.025, 0.975), 1000) #[1] 938 1062 como para ser realista en muchas aplicaciones. ...

Proyecciones probabilísticas de población

Cuando escribí que las proyecciones de población del INE no valían para un carajo, todavía no se había publicado bayesPop. Ahora tienen una excusa menos para no ponerse a la altura de los tiempos. Nota: el gráfico anterior está extraído de la la página de proyecciones de población de la ONU y corresponde, cómo no, a España.

El número efectivo de partidos

El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula $$ N = \frac{1}{\sum_i p_i^2}$$ y excipiente alrededor. Aplicada a España (usando datos del CIS como proxy), Como casi siempre, el código: library(rvest) library(rvest) library(reshape2) library(plyr) library(zoo) url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html" raw <- read_html(url) tmp <- html_nodes(raw, "table") tmp <- html_table(tmp[[2]], fill = TRUE) colnames(tmp)[1] <- "partido" tmp <- tmp[!is.na(tmp$partido),] tmp <- tmp[1:30,] tmp <- melt(tmp, id.vars = "partido") tmp <- tmp[tmp$value != ".",] tmp$value <- as.numeric(tmp$value) tmp$variable <- gsub("ene", "01-", tmp$variable) tmp$variable <- gsub("abr", "04-", tmp$variable) tmp$variable <- gsub("jul", "07-", tmp$variable) tmp$variable <- gsub("oct", "10-", tmp$variable) tmp$variable <- gsub("-0", "-200", tmp$variable) tmp$variable <- gsub("-1", "-201", tmp$variable) tmp$variable <- gsub("-9", "-199", tmp$variable) tmp$variable <- paste0("01-", tmp$variable) tmp$variable <- as.Date(tmp$variable, format = "%d-%m-%Y") dat <- tmp dat <- ddply(dat, .(variable), transform, total = value / sum(value)) res <- ddply(dat, .(variable), summarize, enp = 1 / (sum(total^2))) res <- zoo(res$enp, order.by = res$variable) plot(res, main = "Número efectivo de partidos\nen España(1996-2016)", xlab = "", ylab = "número efectivo de partidos")

Las tres (o cuatro) eras de la estadística

Las cosas, frecuentemente, son como son y no de otra manera, especulativamente, mejor por razones históricas. Es lo que hay. La respuesta a muchas preguntas es “porque A llegó antes que B”. La estadística (y particularmente, la que se enseña) es como es y no de otra manera, especulativamente, mejor, también por razones históricas. Por eso siempre pierdo algo de tiempo hablando (¡es uno de mis personajes favoritos del XIX!) de Quetelet y los suyos; luego, de Fisher y compañía; finalmente, de Efron y los demás. ...

La h-filosofía de la estadística en once puntos

La estadística tiene que estar totalmente integrada en la investigación: el diseño experimental es fundamental. Que no te asuste utilizar métodos modernos Preserva toda la información disponible en los datos: evita categorizar los predictores continuos y los valores predichos No asumas que algo opera linealmente Ten en cuenta la incerditumbre sobre el (no del) modelo y trata de minimizarlo usando conocimiento previo sobre la materia Usa remuestreos Considera el tamaño muestral una variable aleatoria cuando sea posible Usa estadística bayesiana siempre que sea posible Usa buenos gráficos frecuentemente Para que sea creíble, la investigación tiene que ser reproducible Toda la manipulación de datos y el análisis estadístico tiene que ser reproducible ...

Tlön, Uqbar, Orbis Tertius y el análisis novométrico

Si no sabes qué es el análisis novométrico o el ODA (Optimal Data Analysis), puedes comenzar por aquí. O por aquí.