El guión de mi charla sobre microdatos

No auncié mi pequeña charla/taller del sábado pasado sobre microdatos porque la sala tenía un aforo ínfimo y en el Meetup correspondiente había lista de espera. Pero cuelgo el material (que es un guión; no hay presentación) por si a alguien le resulta útil.

22 de noviembre de 2016 · Carlos J. Gil Bellosta

Detrás de la detección de anomalías en series temporales

Por azares, me ha tocado lidiar con eso de la detección de anomalías. Que es un problema que tiene que ver con dónde colocar las marcas azules en El anterior es el gráfico construido con los datos de ejemplo del paquete AnomalyDetection. De hecho, así: library(AnomalyDetection) data(raw_data) res <- AnomalyDetectionTs(raw_data, max_anoms=0.02, direction='both', plot=TRUE) res$plot Aparentemente, AnomalyDetectionTs hace lo que cabría sospechar. Primero, una descomposición de la serie temporal, tal como myts <- raw_data$count myts <- ts(myts, start = c(1, 841), frequency = 24 * 60) plot(stl(myts, "per")) es decir, ...

16 de noviembre de 2016 · Carlos J. Gil Bellosta

Pesadumbre e incertidumbre desencadenadas

Hoy escribo afectado por un derrame de pesadumbre. Pero esa es solo una opinión que igual no importa nadie. Estas del 8 de noviembre han sido las elecciones en que menos y que más caso he hecho de las encuestas electorales. Cansado del cada vez más monótono ciclo de que se publican encuestas electorales llegan las elecciones y el resultado no se parece en nada a lo dibujado por ellas y se reitera el mismo blablablá (en latín se dice excusatio non petita) que unos meses antes he decidido esta vez dejar de prestar atención a algo que, se ha visto, no ha sido sino ruido. Les he hecho caso, sin embargo, al inclinarme a comprar con ánimo 100% especulativo unas accioncillas que hoy valen el 4% menos que ayer y el 2% menos que cuando las compré. ¡Contento me tienen los científicos de opinión pública y sus benditas batas blancas! ...

10 de noviembre de 2016 · Carlos J. Gil Bellosta

¿Seis sigmas? Porque a mí solo me llegan 4.5 sigmas

Seis sigma es un conjunto de métodos y prácticas para mejorar la calidad de los procesos industriales. Su nombre está inspirado por la distribución normal: aspira a que la tasa de errores (por ejemplo, piezas defectuosas producidas por una planta) sea pnorm(-6). Pero pnorm(-6) es 9.8e-10 (uno por millardo, aproximadamente), mientras que, según la Wikipedia, que siempre tiene la razón, la aspiración del Seis Sigma es la de alcanzar 3.4 defective features per million opportunities. Que es bastante (trescientas veces) superior. ...

8 de noviembre de 2016 · Carlos J. Gil Bellosta

Las dos culturas, con comentarios de 2016

En 2012 mencioné de pasada ese artículo de Breiman al que hace referencia el título. Estaba bien, tenía su gracia. Lo he visto utilizar recientemente como punto de partida en discusiones sobre lo distintas que puedan ser —o no— la ciencia de datos y la estadística. Y espero que, efectivamente, se haya usado como punto de partida y no como otra cosa porque el artículo tiene 15 años (cerrad los ojos y pensad dónde estabais en 2001 y cómo era el mundo entonces). ...

7 de noviembre de 2016 · Carlos J. Gil Bellosta

El principio de información

Tramontando el recetariado, llegamos a los principios. Y el más útil de todos ellos es el de la información (o cantidad de información). (Sí, de un tiempo a esta parte busco la palabra información por doquier y presto mucha atención a los párrafos que la encierran; anoche, por ejemplo, encontré un capitulito titulado The Value of Perfect Information que vale más que todo Schubert; claro, que Schubert todavía cumple la función de proporcionar seudoplacer intelectual a mentes blandas y refractarias al concepto del valor de la información perfecta). ...

20 de octubre de 2016 · Carlos J. Gil Bellosta

Recetas y principios

En algunas de las últimas charlas (de ML) a las que he asistido se han enumerado recetas con las que tratar de resolver distintos problemas. Pero no han explicado cuándo ni por qué es conveniente aplicarlas. Incluso cuando se han presentado dos y hasta tres recetas para el mismo problema. Me consta que parte de la audiencia quedó desconcertada y falta de algo más. ¿Tal vez una receta para aplicar recetas? ¿De una metarreceta? ...

19 de octubre de 2016 · Carlos J. Gil Bellosta

¿Os acordáis del rumano de la "fragoneta"? Pues se ha mudado a Chicago

Del rumano de la fragoneta hablé en una charla del 2013 que fue después glosada por Daniel Mediavilla en un par de medios. Y, ¿sabéis qué? ¡Se ha ido a vivir a Illinois!

18 de octubre de 2016 · Carlos J. Gil Bellosta

Barómetros del CIS con R

El CIS realiza barómetros todos los meses menos uno. Pasado un tiempo (es octubre y el último publicado es de julio) coloca los microdatos en su banco de datos. Aparte de ficheros .pdf que lo explican todo (pero que no dejan de ser .pdf), publica dos ficheros. Uno de datos en ancho fijo (prefijo DA) y otro con código SPSS (prefijo ES) con los consabidos (¿lo son? ¡felicidades si no!) encabezados DATA LIST, VARIABLE LABELS, VALUE LABELS, y MISSING VALUES. ...

5 de octubre de 2016 · Carlos J. Gil Bellosta

Si se estudió que las autopistas eran viables, ¿por qué están ahora en quiebra?

Así titula El Mundo un artículo en el que el mismo periódico se responde: Porque los estudios de viabilidad sirvieron más para justificar la construcción que para cubrir una necesidad real. La R-3 y la R-5 absorberían 70.000 vehículos diarios según las estimaciones y el tráfico real es al menos cuatro veces inferior. En sentido contrario Gobierno, concesionarias y bancos subestimaron el coste del suelo. Los expropiados llevaron su caso a los tribunales y llegaron a multiplicar hasta en 10 veces lo que recibieron años atrás. ...

4 de octubre de 2016 · Carlos J. Gil Bellosta