Políticas y tarifas; medias y deciles

Aviso: Esta entrada es altamente, puramente especulativa. Tiempo atrás, se tendía a ponderar el efecto de una política (p.e., la alteración de la tarifa de un servicio público o semipúblico) en términos de su impacto en un usuario medio. A lo Quetelet (en el mejor de los casos). Ahora está más de moda medirlo en términos de su impacto en el decil mas desgraciadico. A lo maxmin rawlsiano (en el mejor de los casos). ...

7 de febrero de 2018 · Carlos J. Gil Bellosta

Interacciones "mecánicas" en regresiones logísticas

En general, dos variables interaccionan cuando el efecto de una cambia al modificarse el nivel de la otra. Un caso particular (aunque notable) de interacción es el habitual en los modelos lineales, generalizados o no. En ellos, al introducir en el modelo términos del tipo x1 * x2, estamos indicando que el coeficiente de la segunda variable, $x_2$, es $\alpha + \beta x_1$. El efecto de un incremento de una unidad de $x_2$ depende entonces de $x_1$. ...

6 de febrero de 2018 · Carlos J. Gil Bellosta

Lanzamientos de moneda: no es azar sino física

Lo dicen Diaconis y sus coautores en Dynamical Bias in the Coin Toss. Que es un artículo en el que modelan la física de lanzamientos de moneda e incluso y llegan a construir una máquina con el aspecto que siempre obtiene caras (o cruces). El quid de la historia es que existen condiciones iniciales de lanzamiento (velocidad inicial, velocidad angular) isoresultado (donde resultado es cara o cruz). Como en ...

5 de febrero de 2018 · Carlos J. Gil Bellosta

rOpenSpain está en marcha

rOpenSpain es como rOpenSci, pero para datos públicos españoles. El 2018-01-31 tuvimos la reunión fundacional y estamos arrancando. Daremos mucha guerra en lo sucesivo. Porque necesitaremos tu ayuda. Así que estáte atento, síguenos en Twitter, etc.

2 de febrero de 2018 · Carlos J. Gil Bellosta

Mortalidad y tramos de edad gordotes

Cuando se estudia la mortalidad, hay que tener cuidado con los tramos de edad considerados. Véase, por ejemplo, esto, que se resume en un “tenemos que ajustar el incremento de la edad media en la categoría de las personas en el rango de edad comprendido entre los 45 y los 54 años [para evitar meter la pata mucho]”. Sí, incluso trabajando con rangos de edad tan estrechos, hay problemas de heterogeneidad que pueden dar lugar a resultados espurios. ...

31 de enero de 2018 · Carlos J. Gil Bellosta

Dónde están las letras

Inspirado en esto construí usando como texto el Quijote y como código una versión mucho más simple y limpia que (aunque inspirado en) la del enlace original: library(stringr) library(plyr) library(ggplot2) raw <- readLines("http://www.gutenberg.org/cache/epub/2000/pg2000.txt") # limpieza de encabezamientos textfile <- raw[-(1:36)] textfile <- text[1:which(text == "Fin")] # en una única cadena textfile <- paste(textfile, collapse= " ") # limpieza textfile <- str_to_lower(textfile) textfile <- str_replace_all(textfile, "[[:punct:]]|[[:digit:]]", " ") # selección de palabras words <- unique(unlist(str_split(textfile, " "))) words <- words[words != ""] # recolección de estadísticas res <- ldply(words, function(word){ tmp <- str_split(word, "")[[1]] data.frame(word = word, letra = tmp, posicion = 1:length(tmp) / length(tmp), stringsAsFactors = FALSE) }) tmp <- table(res$letra) tmp <- names(tmp[tmp > 10]) res <- res[res$letra %in% tmp,] ggplot(res, aes(x = posicion)) + geom_density(fill = "red") + facet_wrap( ~ letra, scales = "free_y") + ggtitle("Dónde aparece cada letra dentro de un texto (El Quijote)") + ylab("proporción de aparicion") + xlab("% de la longitud de la palabra") + scale_fill_brewer(palette = "Set1") + theme_minimal() + theme(axis.ticks = element_blank(), axis.text.y = element_blank(), axis.text.x = element_blank(), legend.position = "none", panel.grid.major = element_blank(), panel.grid.minor = element_blank())

29 de enero de 2018 · Carlos J. Gil Bellosta

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences. Para la mía han creado el siguiente cartelito: El resumen que preparé es: Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.): en ellas, en análisis de datos tiene como objetivo medir (de ahí el nombre) una serie de parámetros presupuestos por un planteamiento teórico previo. Este conflicto tiene derivadas filosóficas (que, a pesar de su interés, no consideraremos) y otras de índole práctica. Porque gran parte del trabajo real del científico de datos actual sigue el programa de las *metrías, a pesar de las manifestaciones habituales al contrario. Esta charla quiere poner de manifiesto el valor de la teoría subyacente e ilustrar cómo el quehacer de un científico de datos consiste frecuentemente en medir parámetros establecidos dentro de un marco teórico riguroso a través de una serie de ejemplos prácticos reales. ...

26 de enero de 2018 · Carlos J. Gil Bellosta

mgm (no la de las pelis sino la de los modelos gráficos)

Cayeron en mis manos unos datos que no puedo publicar, pero me atreveré a presentar algunos resultados anonimizados. Se trata de una tabla de puntuaciones numéricas (18 en total, cada una en su columna) proporcionadas por unos cuantos centenares de sujetos (filas). Era de interés un estudio cualitativo de las posibles relaciones de dependencia entre las variables. La manera más rápida de comenzar, un heatmap(cor(dat)), para obtener Y luego PCA y todas esas cosas. ...

25 de enero de 2018 · Carlos J. Gil Bellosta

La dieta de hambre en días alternos en la alimentación de los viejos

Traigo a colación de mis lectores un artículo del año 1956, La dieta de hambre en días alternos en la alimentación de los viejos (que se puede bajar de aquí) cuya lectura recomiendo encarecidamente. Subrayo en él varias cosas. La primera es la sorpresa que produce desde el interior de esta burbuja de amaneramiento en que vivimos sumergidos en 2018 que alguien se hubiese atrevido a llamar viejos a los viejos en público y por escrito en algún tiempo y lugar. ...

24 de enero de 2018 · Carlos J. Gil Bellosta

¡Terror! ¡Las máquinas nos van a quitar los trabajos! ¡Oh, oh, oh! ¡Uh, uh, uh!

Habréis leído por ahí relatos apocalípticoides sobre un futuro gris en el que las máquinas nos dejarán sin trabajo. Clic. Otra gente memos agorera opina que, más que trabajos, la máquinas eliminarán tareas (i.e., partes aburridas de los trabajos). No voy a hablar de unas señoras, muy funcionarias ellas, clic, que conforman el Registro (con mayúscula) de cierta institución pública en la que tuve que depositar una factura impresa, firmada a mano y por duplicado recientemente. Y cuyo trabajo consiste en sellar la factura, meterla factura en la carpeta correspondiente, clic, y esperar a que un bedel la lleve al despacho donde seguirá el trámite. Hoy no. ...

23 de enero de 2018 · Carlos J. Gil Bellosta