¿Vale realmente el "bootstrap" para comparar modelos?

Es una pregunta legítima —en el sentido de que ignoro la respuesta— que tengo. Para plantearla en sus debidos términos: Contexto: Tenemos modelos y queremos compararlos. Queremos que funcionen en el universo, pero solo disponemos de él una muestra. Acto 1: Para desatascar el nudo lógico, recurrimos a técnicas como: Entrenamiento y validación, jackknife y sobre todo, su popular evolución, la validación cruzada. Todas ellas bien sabidas y discutidas en todos los manuales. ...

2 de abril de 2019 · Carlos J. Gil Bellosta

¿Irán por aquí los tiros en el futuro de la "ciencia de datos"?

Para muchos, el futuro de la llamada ciencia de datos seguirá la estela dejada por y sus continuadores usando cosas deep. Pero a la vez, sin tanto estruendo y con una mucho menor cobertura mediática, otros están trazando una ruta alternativa que ilustran artículos como Bayes and Big Data: The Consensus Monte Carlo Algorithm (atención todos a lo que hace uno de sus coautores, Steven L. Scott, que convierte en oro todo lo que toca). Como abrebocas, su resumen (con mi subrayado): ...

1 de abril de 2019 · Carlos J. Gil Bellosta

Sobre la (necesaria) validación a posteriori de modelos de caja negra

Esta entrada viene a cuento de una conversación que tuve el otro día con un economista clásico que me preguntaba mi opinión sobre los métodos del ML aplicados en su disciplina (y no solo en ella). Le causaba cierto desasosiego, muy razonable, el hecho de que le pusieran delante cajas negras que presuntamente, y eso era artículo de fe, predecían ciertos fenómenos macroeconómicos. ¿Qué —decía— si los modelos están recogiendo las correlaciones erróneas? (Y sí, el mundo del ML está plagado de casos de ese tipo; por ejemplo, léase la motivación de Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission). ...

27 de marzo de 2019 · Carlos J. Gil Bellosta

Ceteris paribus vs Heráclito

Nuestro producto aumenta el X de las empresas en un Y%. ¿Cuántas veces hemos oído eso? Esa afirmación presupone una fe ciega en la posibilidad de aplicar el principio del ceteris paribus en situaciones reales. Pues lo siento: el ceteris paribus es un concepto abstracto, una aspiración a la que la realidad de las cosas se opone tozudamente. ¿Y Heráclito? Heráclito nos observa desde donde esté y se fuma un puro.

25 de marzo de 2019 · Carlos J. Gil Bellosta

Encuesta de Estructura Salarial y R: propedéutica

La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza: El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior. Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así: library(MicroDatosEs) dat <- ees2010("md_EES_2014.txt") # Días año dat$DIASRELABA <- dat$DRELABAM * 30.42 + dat$DRELABAD dat$DIASRELABA[dat$DIASRELABA > 365]<- 365 dat$DIASANO <- dat$DIASRELABA - dat$DSIESPA2 - dat$DSIESPA4 # Salario bruto anual dat$SALANUAL = (365/dat$DIASANO) * (dat$SALBRUTO + dat$VESP) Ahora sí que se puede definir, por ejemplo, ...

21 de marzo de 2019 · Carlos J. Gil Bellosta

Lo que las diferencias de medias evocan

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Tal vez sea porque nos han educado mostrándonos imágenes no muy distintas de ...

14 de marzo de 2019 · Carlos J. Gil Bellosta

Mezclas y regularización

Cuando mezclas agua y tierra obtienes barro, una sustancia que comparte propiedades de sus ingredientes. Eso lo tenía muy claro de pequeño. Lo que en esa época me sorprendió mucho es que el agua fuese una mezcla de oxígeno e hidrógeno: ¡era muy distinta de sus componentes! Porque no era una mezcla, obviamente. Era una combinación. En una combinación emergen propiedades inesperadas. Las mezclas, sin embargo, son más previsibles. Pensaba en esto mientras escribía sobre la regularización de modelos (ridge, lasso y todas esas cosas). La regularización puede interpretarse como una mezcla de dos modelos: el original y el nulo (con todos los coeficientes iguales a cero). El modelo original tiene poco sesgo y mucha varianza; el nulo, prácticamente nada de varianza y muchísimo sesgo. El regularizado queda a medio camino. El original tiene varios, tal vez muchos, grados de libertad mientras que el nulo, ninguno (¿o uno?); puede considerarse que el número de grados de libertad del regularizado queda a medio camino. ...

13 de marzo de 2019 · Carlos J. Gil Bellosta

Quienes ignoran la estadística están condenados a reinventarla

Esa frase la he pronunciado en alguna ocasión y no sé si la habré escrito en este blog. La reescribo porque hace apenas unas horas he leído un artículo en el que un tipo ha redescubierto el partial pooling (quien lo ignore lea esto urgentemente). Claro, proponía unas cosas tan raras como ocurrentes que se reducían a la estrategia que he contado: tengo cierta intuición de una idea genial que no llego a aprehender enteramente y procedo a moverme dando tumbos y a golpe de ocurrencias en la difusa dirección en la que parece apuntar. ...

6 de marzo de 2019 · Carlos J. Gil Bellosta

El método de Laplace para aproximar ciertas funciones

El método de Laplace para aproximar funciones puede usarse para: Resolver integrales, como aquí. O para aproximar distribuciones (como esta posteriori o estas otras). Nota: Y más vale que funcione bien y a escala o voy a tener problemas en un inminente proyecto.

5 de marzo de 2019 · Carlos J. Gil Bellosta

offset, porque el coeficiente es 1 necesariamente

Estos días me han preguntado sobre un modelo lineal tal que $y \sim x_1 + \dots$ donde el coeficiente de $x_1$ no se entiende si no es igual a 1. Es como si los datos se creasen de la forma n <- 100 x1 <- rnorm(n) x2 <- rnorm(n) y <- x1 + rnorm(n, .1) + .02 * x2 y se conociese el coeficiente de $x_1$ y no el de $x_2$. Entonces no tiene sentido plantear el modelo lm(y ~ x1 + x2) sino más bien modelo <- lm(y ~ offset(x1) + x2) que hace lo que uno espera. Lo cual se puede comprobar, por ejemplo, comparando ...

4 de marzo de 2019 · Carlos J. Gil Bellosta