Posts

El número efectivo de partidos

El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula $$ N = \frac{1}{\sum_i p_i^2}$$ y excipiente alrededor. Aplicada a España (usando datos del CIS como proxy), Como casi siempre, el código: library(rvest) library(rvest) library(reshape2) library(plyr) library(zoo) url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html" raw <- read_html(url) tmp <- html_nodes(raw, "table") tmp <- html_table(tmp[[2]], fill = TRUE) colnames(tmp)[1] <- "partido" tmp <- tmp[!is.na(tmp$partido),] tmp <- tmp[1:30,] tmp <- melt(tmp, id.vars = "partido") tmp <- tmp[tmp$value != ".",] tmp$value <- as.numeric(tmp$value) tmp$variable <- gsub("ene", "01-", tmp$variable) tmp$variable <- gsub("abr", "04-", tmp$variable) tmp$variable <- gsub("jul", "07-", tmp$variable) tmp$variable <- gsub("oct", "10-", tmp$variable) tmp$variable <- gsub("-0", "-200", tmp$variable) tmp$variable <- gsub("-1", "-201", tmp$variable) tmp$variable <- gsub("-9", "-199", tmp$variable) tmp$variable <- paste0("01-", tmp$variable) tmp$variable <- as.Date(tmp$variable, format = "%d-%m-%Y") dat <- tmp dat <- ddply(dat, .(variable), transform, total = value / sum(value)) res <- ddply(dat, .(variable), summarize, enp = 1 / (sum(total^2))) res <- zoo(res$enp, order.by = res$variable) plot(res, main = "Número efectivo de partidos\nen España(1996-2016)", xlab = "", ylab = "número efectivo de partidos")

Las tres (o cuatro) eras de la estadística

Las cosas, frecuentemente, son como son y no de otra manera, especulativamente, mejor por razones históricas. Es lo que hay. La respuesta a muchas preguntas es “porque A llegó antes que B”. La estadística (y particularmente, la que se enseña) es como es y no de otra manera, especulativamente, mejor, también por razones históricas. Por eso siempre pierdo algo de tiempo hablando (¡es uno de mis personajes favoritos del XIX!) de Quetelet y los suyos; luego, de Fisher y compañía; finalmente, de Efron y los demás. ...

Polinomios monótonos

Recibí un mensaje el otro día sobre polinomios monótonos. Mejor dicho, sobre el ajuste de datos usando polinomios monótonos. Frente a un modelo del tipo y ~ x (x e y reales) donde la relación entre las dos variables es manifiestamente no lineal y necesariamente monótina, p.e., creciente (por consideraciones previas), cabe considerar ajustar un polinomio monótono, i.e., realizar una regresión polinómica con la restricción adicional de que el polinomio de ajuste resultante sea monótono. ...

La h-filosofía de la estadística en once puntos

La estadística tiene que estar totalmente integrada en la investigación: el diseño experimental es fundamental. Que no te asuste utilizar métodos modernos Preserva toda la información disponible en los datos: evita categorizar los predictores continuos y los valores predichos No asumas que algo opera linealmente Ten en cuenta la incerditumbre sobre el (no del) modelo y trata de minimizarlo usando conocimiento previo sobre la materia Usa remuestreos Considera el tamaño muestral una variable aleatoria cuando sea posible Usa estadística bayesiana siempre que sea posible Usa buenos gráficos frecuentemente Para que sea creíble, la investigación tiene que ser reproducible Toda la manipulación de datos y el análisis estadístico tiene que ser reproducible ...

Tlön, Uqbar, Orbis Tertius y el análisis novométrico

Si no sabes qué es el análisis novométrico o el ODA (Optimal Data Analysis), puedes comenzar por aquí. O por aquí.

Va de si hay una o dos lambdas

Un año, el 2016, mueren 1160 personas en accidentes de tráfico. El anterior, 1131, i.e., 29 menos. Ruido estadístico aparte, ¿aumentan? Comenzamos a optar. Primera elección subjetiva: son muestras de una Poisson de parámetro desconocido. La pregunta: ¿el mismo? Una manera de estudiar lo anterior es plantear 1160 ~ poisson(lambda * (1 + incr)) 1131 ~ poisson(lambda) y estudiar la distribución de incr. Que a saber qué distribución tendrá (teóricamente). Pero, ¿importa? Mejor que rebuscar a ver qué distribución podría tener la cosa, basta con envolverlo en un poco de seudo-C++, ...

Vivimos en un mundo opaco e interconectado

Vivimos en un mundo opaco: como en los cuentecillos de Asimov, somos usuarios de tecnologías que ni conocemos ni controlamos. Parametrizamos nuestras máquinas y las echamos a correr. Poco más podemos hacer que fiarnos de quienes nos las proporcionan. Luego pasan cosas como que, de repente, resulta que Stan, en las últimas versiones, ha estado produciendo muestras sesgadas. ¿Qué resultados condicionará eso río abajo? Un caso mucho más famoso es el de la resonancia magnética (fMRI): un error en el software concomitante pone bajo sospecha hasta 40000 artículos sobre estudios del cerebro. Precisamente, por lo mismo. ...

Weapons of Math Destruction

Así se titula un libro que no he leído y que, pese a lo cual, como los malos críticos, voy a comentar. Los libros suelen estar plagados de hojarasca, tal vez porque de otra manera no se puede hacer crecer un par de ideas más o menos originales a las cientoypico páginas como mínimo que uno espera encontrar entre dos tapas. El relato corto no da caché. Y yo ando corto de tiempo. ...

Es imposible enseñar nada a alguien cuyo sueldo depende de no aprender

O algo así reza una cita que no ubico. Viene a cuento de un artículo que se acaba de publicar en Nature, A manifesto for reproducible science, que se resume así: Los científicos son gente extraordinaria que persigue honrada y abnegadamente el ensanchamiento del saber humano. No obstante, están produciendo toneladas de mierda. Pero no lo hacen consciente o malintencionadamente; lo hacen porque no saben. Si se equivocan, además, es por culpa de la sociedad, que los incentiva torcidamente. Si los científicos se toman la molestia de aplicar una serie de medidas que propone el artículo, producirán menos mierda. El problema es que la ciencia se paga como la ropa vieja: al peso. Dígase lo que se quiera, pero luego, lo que ufana a científicos, universidades, centros de investigación e, incluso, países, es el número bruto de artículos publicados: de ellos dependen trienios, sexenios, anecas, proyectos, becas, rankings y demás. ...

Lo que pasa cuando omites la priori con variables categóricas

Stan. Modelo multinivel. Variable categórica. Codificación con ceros y unos. Matriz. Coeficiente vector[n_ccaa] Cccaa. Sin priori. Catástrofe: (Coeficientes hasta 15000. Sin tasa, con tiempo. Los valores desorbitados, en ceros de la dummy). Priori. for (i in 1:n_ccaa) Cccaa[i] ~ cauchy(0, 20); ¿Por qué no? Tachán: (¿Para qué verbos?)