Spike and slab: otro método para seleccionar variables

Me sorprende ver todavía a gente utilizar técnicas stepwise para la selección de variables en modelos. Sobre todo, existiendo herramientas como elastic net o lasso.

Otra de las técnicas disponibles es la del spike and slab (de la que oí hablar, recuerdo, por primera vez en el artículo de Varian Big Data: New Tricks for Econometrics). Es una técnica de inspiración bayesiana en cuya versión más cruda se imponen sobre las variables del modelo de regresión prioris que son una mezcla de dos distribuciones:

¿En primavera? ¿En serio? Ni de coña

Hubo un tiempo en el que había que hacer caso a Aristóteles. Era lo que se esperaba de toda persona culta de la época. Así que, supongo, o te fiabas de lo que ven tus propios ojos o dabas por bueno que las mujeres tenían menos dientes.

Hoy nos piden que hagamos caso de nuestras autoridades sanitarias. Incluso, supongo, cuando dicen que el periodo más bajo de mortalidad en España ocurre en primavera (fuente).

10k regresiones truchas para que cada cual elija la que más le cuadre

¿Recordáis la época en que existía una monocausa omnicacoexplicativa? Era la desigualdad que, a través de inefables mecanismos, generaba todo tipo de calamidades: infelicidad, enfermedad, inestabilidad política, etc.

Tal se sostiene en, p.e., The Spirit Level: Why More Equal Societies Almost Always Do Better, un libro donde se argumenta alrededor de gráficas tales como

Sin embargo, otro librito, The Spirit Level Delusion, revisitó esas cuestiones poco después y se dio cuenta de que si en lugar de tomar los datos de la fuente A los tomaba de la B; que si en lugar de usar cifras del año tal se usaba las del año cual; si se incluía el país X que aquellos habían considerado y se sacaba el Y, que solo se representaba a sí mismo, uno obtenía cosas tales como

Pokemoneando ruido

Quería escribir una entrada totalmente distinta y me ha bloqueado el no contar con una buena traducción para chase noise.

¿Cazar ruido? Pero la caza es una actividad casi solipsista: dos perros y un tipo con escopeta caminando al contraviento por el orillo de un monte por si vuela una perdiz. Nada que ver con ese refrescar compulsivo de las páginas que dan cuenta de casos y decesos, tan colectivo e histérico.

Consumo alimentario mensual en los hogares españoles en R

R

[Coge aire: aquí arranca una frase muy larga] Simplemente, que he creado un repositorio en GitHub para extraer información de los ficheros excel y sus muchas pestañas que componen el sistema de difusión de datos estadísticos sobre consumo de alimentos y bebidas de las familias que realiza el ministerio de como se llame ahora.

La página de ministerio es esta; el repositorio, este.

Nota: hay mucha información muy buena que merece ser más conocida y mejor explotada.

Mirad lo bien que funciona la hidroxicloroquina

Habréis oído hablar del artículo de la hidroxicloroquina (como tratamiento para el coronavirus). Lo resumo.

Se toman 42 pacientes y a 26 se les administra hidroxicloroquina y a 16 no; en concreto:

A total of 26 patients received hydroxychloroquine and 16 were control patients.

Luego pasan cosas y se llega a que

At day6 post-inclusion, 70% of hydroxychloroquine-treated patients were virologicaly cured comparing with 12.5% in the control group (p= 0.001).

El modelo SIR con inferencia

El modelo SIR es deductivo: dados una serie de parámetros, plantea una ecuación diferencial cuya solución es perfectamente limpia y determinista, tal como gusta a matemáticos y físicos:

Pero, ¿quién y cómo le pone al gato el cascabel de determinar los parámetros más adecuados para el modelo? Los parámetros son inciertos, ruidosos y producto de los datos que el modelo mismo quiere representar. Lo suyo sería enlazar la ecuación diferencial

CausalImpact me ha complacido mucho

Estoy aquí analizando datos para un cliente interesado en estudiar si como consecuencia de uno de esos impuestos modennos con los que las administraciones nos quieren hacer más sanos y robustos. En concreto, le he echado un vistazo a si el impuesto ha encarecido el precio de los productos gravados (sí) y si ha disminuido su demanda (no) usando CausalImpact y me ha complacido mucho que la salida de summary(model, "report") sea, literalmente, esta:

Densidades unidimensionales en R

R

Es un asunto tangencial que, además, se soluciona las más de las veces con density. Pero parece que tiene mucha más ciencia detrás.

Por algún motivo, acabé un día en la página del paquete logspline, que ajusta densidades usando splines. Su promesa es que puede realizar ajustes de densidades tan finos como

que está extraído de Polynomial Splines and their Tensor Products in Extended Linear Modeling, el artículo que le sirve de base teórica. El algoritmo subyacente es capaz, como da a entender el gráfico anterior, de graduar la resolución en la determinación de la densidad para representar debidamente tanto las zonas con detalles finos sin difuminarlos como las regiones más aburridas sin crear irregularidades espurias.

Cuantificación y riesgo

Economics After Neoliberalism, es una reescritura más de un argumento bastante manido y que se ha visto tratar desde la izquierda, como en esta ocasión, como desde la derecha: el libro Seeing Like a State es una perífrasis libertaria de casi 500 páginas que viene a decir lo mismo. O, según se mire, lo contrario.

El nudo del argumento es que la cuantificación (de los fenómenos económicos y sociales) no es solo una herramienta relativamente moderna de ayuda a la decisión sino que la condiciona, que, diríase, la contiene. Solo que si lees el primer artículo, parece contener neoliberalismo y si lees el segundo, colectivismo soviético con estética Le Corbusier.