Notas (21): Predicciones, métricas y el rigor de los datos: un recorrido por la actualidad estadística

A veces hay en el mundo una variable aleatoria $X$ que distintos agentes tratan de predecir. Pero en otras ocasiones hay una variable aleatoria $X$, ciertos agentes crean predicciones $Y$ de $X$ y otros están interesados en la predicción de $Y$, tal como describe Matt Levine en Weather Prediction Prediction.

The Economist describe los esfuerzos de la India por recuperar la credibilidad de sus estadísticas nacionales tras años de interferencia política.

Asterisk trae un artículo sobre la historia de la aplicación de la teoría de la supervivencia a la ingeniería industrial.

Andrew Gelman sobre «Lotto Champ», una herramienta de IA para «ayudar» a los jugadores de la lotería a «jugar más informadamente».

«Una encuesta de YouGov que mostraba un aumento significativo en la asistencia a la iglesia en partes del Reino Unido ha sido retirada tras descubrirse que algunos de los encuestados eran fraudulentos.»

¿Qué se puede aprender en un estudio con $N = 12$ que no se puede aprender en un estudio con $N = 1$ o $2$?

Cremieux abunda sobre los problemas de la hiperconfianza en los controles estadísticos (es decir, la confianza ciega en que las variables de control efectivamente controlan la variabilidad).

Acerca de la bondad de ajuste de modelos, varios enlaces:

El muy ecléctico William M. Briggs insiste en que la medida más importante de la calidad de un modelo es la utilidad específica para el usuario y el concepto de «habilidad» para resolver sus problemas concretos.
Juan Camilo Orduz escribe sobre el CRPS, una métrica poco usada (entre otras cosas, porque exige predicciones probabilísticas, algo no particularmente frecuente).

Data Colada escribe en pro del uso de los errores estándar robustos. También escribe sobre unos rarísimos $R^2$ negativos que aparecen en determinadas aplicaciones poco cuidadosas de la validación cruzada (¿el modelo lo hace peor que la media? ¿en serio?).

Siempre se aprende mucho del semianónimo autor de FreeRangeStats. En particular, de su predicción del desempleo en Australia (que concluye que los modelos univariantes simples pueden superar a los que incorporan variables externas (cuando estas tienen pinta de ser consecuencia y no causa del fenómeno en cuestión)).

En cuanto a novedades en R:

bdlnm para la estimación de modelos bayesianos con «rezagos», es decir, variables que impactan en la variable objetivo a lo largo del tiempo. Me habría sido muy útil en mi época de estimación del impacto de las olas de calor en la mortalidad.
TabPFN, que es una de esas novedades que lo dejan a uno patidifuso. Pero que parte del principio de que «esa tabla concreta que tienes entre manos» es simplemente un caso particular de un universo (una subvariedad, probablemente) de posibles configuraciones de datos que una IA ya se sabe de memoria.