Ruido de alarmas, ruido de p-valores; mucho, mucho ruido, tanto, tanto ruido

Me estoy volviendo intolerante al ruido. Y esta mañana (¿qué carajos hago levantado tan temprano?) no había forma de que dejase de sonar la alarma de unos andamios de la plaza, no paraba la batidora del bar desde donde escribo y, encima, esto, esto, esto, esto, esto, esto,… Son todas noticias relacionadas con la publicación de esto, un artículo que describe un estudio clínico (¡con 84 sujetos!) en el que se comparan dos grupos (uno tratado y otro no) que, ...

8 de junio de 2016 · Carlos J. Gil Bellosta

Curvas ROC no cóncavas: ¿por qué, por qué, por qué?

El otro día me enseñaron una rareza: una curva ROC no cóncava. Digamos que como El gráfico que la acompaña aquí, explica un par de cositas. El artículo enlazado discute cómo combinar clasificadores para construir otro cuya curva ROC sea la envolvente convexa del original.

13 de mayo de 2016 · Carlos J. Gil Bellosta

Encuestas electorales: medios y sesgos (II)

Aquí quedó pendiente hablar de datos y métodos. Los primeros proceden de El Mundo. Solicité a Marta Ley, una coautora, los datos pero, antes de que contestase que sí (¡gracias!), me di cuenta de que podía obtenerlos solito: basta con capturar la llamada que el javascript local hace al servidor. ¿Métodos? Mejorables: se suaviza la intención de voto (con loess) y se estima la diferencia con un modelo de efectos mixtos, i.e., modelo<- lmer(delta ~ 1 + (1 | medio), data = misdatos) ¿Caveats? Veo dos: el primero, que loess suaviza teniendo en cuenta también observaciones futuras. Los autores de las encuestas no ven la verdad: solo los resultados de las encuestas previas. Debería haber usado como referencia la mejor predicción basada en observaciones pasadas. El segundo, que los porcentajes de los distintos partidos suman un total. Los sesgos no son independientes y yo los modelo como tales. ...

9 de mayo de 2016 · Carlos J. Gil Bellosta

Encuestas electorales: medios y sesgos (I)

Existen las encuestas electorales. Las publican medios. Algunos, se dice, tienen sesgos. Lo he estudiado y a continuación muestro resultados. Para el PP: Para el PSOE: Para Podemos y cía: Para Ciudadanos: Para IU: En otra entrada, datos y métodos. Hoy solo adelanto que el eje horizontal mide puntos porcentuales y que las encuestas se remontan a enero de 2015.

5 de mayo de 2016 · Carlos J. Gil Bellosta

El cincuenta en raya (y el tres en raya)

Supongo que todos conocéis el tres en raya. El cincuenta en (casi) raya, sin embargo, es esto: Hay dos variables, (pluviosidad y ratio hombres/mujeres) y los cincuenta punticos casi en raya corresponden a los estados de EE.UU. ¿Asombrosa correlación? No tanto. Aquí se discute cómo, en realidad, por su cercanía sociocultural y climática cada uno de los estados del gráfico son manifestaciones de tres grupos de ellos que, estos sí, esta? en raya (¿casualmente?). ...

21 de abril de 2016 · Carlos J. Gil Bellosta

Y viene del español, tú

Cada día soy más inculto. He dejado de escuchar música; en el último concierto al que fui maté el tiempo con un jueguito del móvil; la taquillera del teatro de mi barrio se niega a venderme entradas por cuestiones formales (que si son las 18:01 y la taquilla cierra a las 18:00); hace años que no leo ficción; en el Reina Sofía, donde otros ven arte yo encuentro desgana y mis gustos cinematográficos son de lo más estragado. ...

11 de abril de 2016 · Carlos J. Gil Bellosta

¿Un libro recomendable de estadística básica?

Me piden bibliografía para unos cursos de ciencia de datos. En particular, de estadística básica. Un texto que reúna los conceptos fundamentales de la cosa para quienes o no los aprendieron en su día o los olvidaron por el camino. Tiene que cumplir algunos requisitos mínimos: Que presente los gráficos estadísticos básicos y que no estén construidos con Excel (en 3D). Que, a lo más, incluya un único gráfico de tarta. Que no sea muy pesado matemáticamente. Que sea breve, pero no demasiado. Que esté accesible, idealmente en internet, gratuita y legalmente. Finalmente, si está escrito escrito en español y usa R, mejor aún. ...

7 de abril de 2016 · Carlos J. Gil Bellosta

El AUC es la probabilidad de que...

Voy a constuir unos datos artificiales y un modelo de clasificación binaria, library(mgcv) library(ggplot2) library(pROC) n <- 10000 dat <- gamSim(1, n=n, dist="binary", scale=.33) lr.fit <- gam(y ~ s(x0, bs="cr") + s(x1, bs="cr") + s(x2, bs="cr") + s(x3, bs="cr"), family=binomial, data=dat, method="REML") y luego (mal hecho: debería hacerlo sobre un conjunto de validación distinto) a obtener las predicciones para las observaciones res <- data.frame(real = factor(dat$y), prob = predict(lr.fit, type = "response")) que ggplot(res, aes(x=prob, fill=real)) + geom_density(alpha=.3) representa así: Me pregunto si el clasificador construido es bueno. Para lo cual voy a construir la curva ROC con sies <- res[res$real == "1",] noes <- res[res$real == "0",] scores <- 0:100 / 100 q.si <- ecdf(sies$prob)(scores) q.no <- ecdf(noes$prob)(scores) plot(q.si, q.no, type = "l") que produce ...

29 de marzo de 2016 · Carlos J. Gil Bellosta

Dime qué muestreas y te diré cuál es tu sesgo

El telón de Aquiles del big data es el sesgo. Me gustaría hablar más de ello, pero me agarra de la pluma uno de esos NDAs. Así que hablaré de otra cosa. Si le preguntas a la gente cuántos hermanos son en la familia, el promedio del resultado tenderá a ser superior al número medio de hijos por familia. Esencialmente, porque no estás muestreando familias sino hijos. El tautológico hecho de que las familias con más hijos tengan más hijos hace que estén sobrerrepresentadas en la muestra. ...

14 de marzo de 2016 · Carlos J. Gil Bellosta

GBM sintetizado en una línea

Es $$ \sum_i \Phi(y_i, f_1(x_i)) > \sum_i \Phi(y_i, f_1(x_i) - \lambda \nabla \Phi(y_i, f_1(x_i)) \sim$$ $$ \sim \sum_i \Phi(y_i, f_1(x_i) - \lambda f_2(x_i))$$ Por supuesto, el lector se preguntará muchas cosas, entre las que destaco: ¿Qué representa cada uno de los elementos que aparecen en la línea anterior? ¿Qué parte de ella es solo casi siempre cierta? ¿Qué tiene todo eso que ver con GBM?

11 de marzo de 2016 · Carlos J. Gil Bellosta