R | Carlos J. Gil Bellosta

El número efectivo de partidos

El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula $$ N = \frac{1}{\sum_i p_i^2}$$ y excipiente alrededor. Aplicada a España (usando datos del CIS como proxy), Como casi siempre, el código: library(rvest) library(rvest) library(reshape2) library(plyr) library(zoo) url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html" raw <- read_html(url) tmp <- html_nodes(raw, "table") tmp <- html_table(tmp[[2]], fill = TRUE) colnames(tmp)[1] <- "partido" tmp <- tmp[!is.na(tmp$partido),] tmp <- tmp[1:30,] tmp <- melt(tmp, id.vars = "partido") tmp <- tmp[tmp$value != ".",] tmp$value <- as.numeric(tmp$value) tmp$variable <- gsub("ene", "01-", tmp$variable) tmp$variable <- gsub("abr", "04-", tmp$variable) tmp$variable <- gsub("jul", "07-", tmp$variable) tmp$variable <- gsub("oct", "10-", tmp$variable) tmp$variable <- gsub("-0", "-200", tmp$variable) tmp$variable <- gsub("-1", "-201", tmp$variable) tmp$variable <- gsub("-9", "-199", tmp$variable) tmp$variable <- paste0("01-", tmp$variable) tmp$variable <- as.Date(tmp$variable, format = "%d-%m-%Y") dat <- tmp dat <- ddply(dat, .(variable), transform, total = value / sum(value)) res <- ddply(dat, .(variable), summarize, enp = 1 / (sum(total^2))) res <- zoo(res$enp, order.by = res$variable) plot(res, main = "Número efectivo de partidos\nen España(1996-2016)", xlab = "", ylab = "número efectivo de partidos")

Polinomios monótonos

Recibí un mensaje el otro día sobre polinomios monótonos. Mejor dicho, sobre el ajuste de datos usando polinomios monótonos. Frente a un modelo del tipo y ~ x (x e y reales) donde la relación entre las dos variables es manifiestamente no lineal y necesariamente monótina, p.e., creciente (por consideraciones previas), cabe considerar ajustar un polinomio monótono, i.e., realizar una regresión polinómica con la restricción adicional de que el polinomio de ajuste resultante sea monótono. ...

Va de si hay una o dos lambdas

Un año, el 2016, mueren 1160 personas en accidentes de tráfico. El anterior, 1131, i.e., 29 menos. Ruido estadístico aparte, ¿aumentan? Comenzamos a optar. Primera elección subjetiva: son muestras de una Poisson de parámetro desconocido. La pregunta: ¿el mismo? Una manera de estudiar lo anterior es plantear 1160 ~ poisson(lambda * (1 + incr)) 1131 ~ poisson(lambda) y estudiar la distribución de incr. Que a saber qué distribución tendrá (teóricamente). Pero, ¿importa? Mejor que rebuscar a ver qué distribución podría tener la cosa, basta con envolverlo en un poco de seudo-C++, ...

Vivimos en un mundo opaco e interconectado

Vivimos en un mundo opaco: como en los cuentecillos de Asimov, somos usuarios de tecnologías que ni conocemos ni controlamos. Parametrizamos nuestras máquinas y las echamos a correr. Poco más podemos hacer que fiarnos de quienes nos las proporcionan. Luego pasan cosas como que, de repente, resulta que Stan, en las últimas versiones, ha estado produciendo muestras sesgadas. ¿Qué resultados condicionará eso río abajo? Un caso mucho más famoso es el de la resonancia magnética (fMRI): un error en el software concomitante pone bajo sospecha hasta 40000 artículos sobre estudios del cerebro. Precisamente, por lo mismo. ...

Lo que pasa cuando omites la priori con variables categóricas

Stan. Modelo multinivel. Variable categórica. Codificación con ceros y unos. Matriz. Coeficiente vector[n_ccaa] Cccaa. Sin priori. Catástrofe: (Coeficientes hasta 15000. Sin tasa, con tiempo. Los valores desorbitados, en ceros de la dummy). Priori. for (i in 1:n_ccaa) Cccaa[i] ~ cauchy(0, 20); ¿Por qué no? Tachán: (¿Para qué verbos?)

Las conexiones telefónicas de Vodafone España, visualizadas con R

Me pasa un exalumno (no os perdáis su blog y su otro blog, especialmente si os interesa la versión friqui de la fotografía) de mi curso de R de KSchool, un gráfico que ha realizado con R para su empresa: Addenda: En los comentarios hay más enlaces relevantes (proporcionados por el autor de la imagen), que conducen al código, etc.

Problemas navideños de/con R

Acabo de sugerir a mis alumnos de KSchool una lista de problemas después de sus 10 primeras horas de contacto con R. Uno de ellos, advierto, y les he advertido (porque yo, no siendo rector de universidad pública alguna, no cuento el plagiar entre mis vicios) es una versión de otro publicado aquí. Ejercicio Construye una matriz que dada una entrada del tipo a <- c('NAME:Maria /COUNTRY:uruguay /EMAIL:mariaUY@gmail.com', 'NAME:Paul/COUNTRY:UK /EMAIL:PaulUK@gmail.com', 'NAME:Jhon /COUNTRY:USA /EMAIL:JhonUSA@gmail.com', 'NAME:Carlos /COUNTRY:Spain /EMAIL:CarlosSP@gmail.com') devuelva un tabla con columnas name, country y email (con los datos correspondientes). ...

Que la fuerza de R también te acompañe a ti (allá a donde haya datos)

La fuerza de R siepre me acompaña allá donde tengo datos. De ello da fe la siguiente captura de pantalla de mi móvil: Si quieres que también te acompañe a ti: Instálate telegram Conecta con teleR

Un muy cuestionable análisis de lo de PISA

Voy a realizar un más que cuestionable (debajo desgranaré los caveats) de los resultados de las pruebas PISA del 2015 en España. Primero, datos y métodos. Los primeros (y las descripciones de las variables) se pueden bajar de aquí. En cuanto a los segundos, he consultado esto (que me ha llevado a), esto y esto (donde está actualizado para los resultados de la última oleada). Hablaré más de métodos, y sus problemas, más abajo. ...

Análisis de la supervivencia cuando ningún sujeto ha muerto

Me ha sobrevenido un problema de análisis de supervivencia curioso: ningún sujeto ha muerto. Dicho de otra manera, todas mis observaciones están censuradas por la derecha. Los datos recogen la antigüedad de la cámara de fotos de los visitantes de cierto blog. Y debería uno poder estimar cada cuántos años renuevan la cámara, es decir, la vida promedio de esos aparatejos. Si embargo, no tenemos información de la edad de las cámaras en el momento de la renovación. Solo de su edad hoy. ¡Todas las observaciones están censuradas por la derecha! ...