Posts

rOpenSpain está en marcha

rOpenSpain es como rOpenSci, pero para datos públicos españoles. El 2018-01-31 tuvimos la reunión fundacional y estamos arrancando. Daremos mucha guerra en lo sucesivo. Porque necesitaremos tu ayuda. Así que estáte atento, síguenos en Twitter, etc.

Mortalidad y tramos de edad gordotes

Cuando se estudia la mortalidad, hay que tener cuidado con los tramos de edad considerados. Véase, por ejemplo, esto, que se resume en un “tenemos que ajustar el incremento de la edad media en la categoría de las personas en el rango de edad comprendido entre los 45 y los 54 años [para evitar meter la pata mucho]”. Sí, incluso trabajando con rangos de edad tan estrechos, hay problemas de heterogeneidad que pueden dar lugar a resultados espurios. ...

Dónde están las letras

Inspirado en esto construí usando como texto el Quijote y como código una versión mucho más simple y limpia que (aunque inspirado en) la del enlace original: library(stringr) library(plyr) library(ggplot2) raw <- readLines("http://www.gutenberg.org/cache/epub/2000/pg2000.txt") # limpieza de encabezamientos textfile <- raw[-(1:36)] textfile <- text[1:which(text == "Fin")] # en una única cadena textfile <- paste(textfile, collapse= " ") # limpieza textfile <- str_to_lower(textfile) textfile <- str_replace_all(textfile, "[[:punct:]]|[[:digit:]]", " ") # selección de palabras words <- unique(unlist(str_split(textfile, " "))) words <- words[words != ""] # recolección de estadísticas res <- ldply(words, function(word){ tmp <- str_split(word, "")[[1]] data.frame(word = word, letra = tmp, posicion = 1:length(tmp) / length(tmp), stringsAsFactors = FALSE) }) tmp <- table(res$letra) tmp <- names(tmp[tmp > 10]) res <- res[res$letra %in% tmp,] ggplot(res, aes(x = posicion)) + geom_density(fill = "red") + facet_wrap( ~ letra, scales = "free_y") + ggtitle("Dónde aparece cada letra dentro de un texto (El Quijote)") + ylab("proporción de aparicion") + xlab("% de la longitud de la palabra") + scale_fill_brewer(palette = "Set1") + theme_minimal() + theme(axis.ticks = element_blank(), axis.text.y = element_blank(), axis.text.x = element_blank(), legend.position = "none", panel.grid.major = element_blank(), panel.grid.minor = element_blank())

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences. Para la mía han creado el siguiente cartelito: El resumen que preparé es: Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.): en ellas, en análisis de datos tiene como objetivo medir (de ahí el nombre) una serie de parámetros presupuestos por un planteamiento teórico previo. Este conflicto tiene derivadas filosóficas (que, a pesar de su interés, no consideraremos) y otras de índole práctica. Porque gran parte del trabajo real del científico de datos actual sigue el programa de las *metrías, a pesar de las manifestaciones habituales al contrario. Esta charla quiere poner de manifiesto el valor de la teoría subyacente e ilustrar cómo el quehacer de un científico de datos consiste frecuentemente en medir parámetros establecidos dentro de un marco teórico riguroso a través de una serie de ejemplos prácticos reales. ...

mgm (no la de las pelis sino la de los modelos gráficos)

Cayeron en mis manos unos datos que no puedo publicar, pero me atreveré a presentar algunos resultados anonimizados. Se trata de una tabla de puntuaciones numéricas (18 en total, cada una en su columna) proporcionadas por unos cuantos centenares de sujetos (filas). Era de interés un estudio cualitativo de las posibles relaciones de dependencia entre las variables. La manera más rápida de comenzar, un heatmap(cor(dat)), para obtener Y luego PCA y todas esas cosas. ...

La dieta de hambre en días alternos en la alimentación de los viejos

Traigo a colación de mis lectores un artículo del año 1956, La dieta de hambre en días alternos en la alimentación de los viejos (que se puede bajar de aquí) cuya lectura recomiendo encarecidamente. Subrayo en él varias cosas. La primera es la sorpresa que produce desde el interior de esta burbuja de amaneramiento en que vivimos sumergidos en 2018 que alguien se hubiese atrevido a llamar viejos a los viejos en público y por escrito en algún tiempo y lugar. ...

¡Terror! ¡Las máquinas nos van a quitar los trabajos! ¡Oh, oh, oh! ¡Uh, uh, uh!

Habréis leído por ahí relatos apocalípticoides sobre un futuro gris en el que las máquinas nos dejarán sin trabajo. Clic. Otra gente memos agorera opina que, más que trabajos, la máquinas eliminarán tareas (i.e., partes aburridas de los trabajos). No voy a hablar de unas señoras, muy funcionarias ellas, clic, que conforman el Registro (con mayúscula) de cierta institución pública en la que tuve que depositar una factura impresa, firmada a mano y por duplicado recientemente. Y cuyo trabajo consiste en sellar la factura, meterla factura en la carpeta correspondiente, clic, y esperar a que un bedel la lleve al despacho donde seguirá el trámite. Hoy no. ...

No os creáis esta encuesta: ¡n = 10!

(Por referencia, el enlace).

"Poor economics": una microcrítica

Me interesó Poor Economics porque alguien en un canal de Telegram que medio sigo dijo que era un libro que tenía siempre en la mesilla. Así que lo bajé de libgen y lo fui leyendo en el metro. La mayor parte del libro es esencialmente descriptivo y, se agradece mucho, sin moralina. Estudia el comportamiento de los pobres de muchos lugares y la efectividad de las distintas políticas y planes de ayuda que han puesto en marcha gobiernos y ONGs. Todo mediante a través de innumerables encuestas, planes de seguimiento, etc. Es decir, con cifras y números. Sin embellecer, además, por hacerlos encajar en un marco de valores preestablecido. ...

Insospechadas aplicaciones de la estadística en arqueología

Se ve que hace 4000 años existió una incipiente actividad comercial entre protociudades situadas en las actuales Turquía, Siria e Irak: Se han descubierto tablillas tales como (que es el primer bono del que se tiene constancia) en las que se lee que alguien llevó tanta plata de la ciudad X a la Y, etc. Los autores Trade, Merchants and Lost Cities of the Bronze Age, usando una muestra de unas 5000 tablillas, modelaron este tráfico usando un modelo de gravedad, es decir, ...