Una serie de apuntes sobre modelos estadísticos

Andrew Gelman se pregunta periódicamente por la obsesión generalizada en involucrar a Jesucristo con los modelos lineales. Versión corta: si el año se modela tal cual (p.e., 2025), el término independiente nos aporta información sobre el hipotético estado de las cosas en el año en el que nació. En general, es conveniente parametrizar las variables de manera que el término independiente de un GLM tenga un mínimo contenido informativo.

Un artículo muy raro de Manuel Hidalgo en NadaEsGratis que incluye todas las palabras que hacen que dejes de leer algo: cuántico, entropía, desorden (como sinónimo de incertidumbre), etc. Lo relevante de la cosa no parece ser tanto lo que cuenta (ya sabemos que hay incertidumbre en el mundo, ya sabemos que nuestra visión del mundo está marcada por la incertidumbre, etc.) sino poder constatar que a ciertos segmentos de la población hay que recordarles estas cuestiones y que puede que incluso se sorprendan cuando se las cuentan.

En ¿Qué significa que la inteligencia es heredable en un 50 %? hay una discusión para legos sobre el concepto de la varianza explicada y de las maneras y dificultades que tenemos los unos para explicarnos y los otros para entendernos. Aunque, como es bien sabido, el concepto de varianza explicada tiene el recorrido que tiene y no más.

La entrada Adjudication and Statistical Efficiency de Frank Harrell tiene que ver con el proceso de asignar (adjudicar) casos a variables más o menos binarias, particularmente cuando dicha asignación no está del todo clara. Sugiere utilizar los grises de distintas maneras: aleatorizar los casos dudosos, utilizar escalas, etc. evitando en la medida de lo posible categorizaciones categóricas y problemáticas.

Creo que voy a invertir un tiempo en el material del curso Prediction for (Individualized) Decision-making. Creo que aún no sé lo suficiente de lo que media entre lo que los modelos nos cuentan y las decisiones que podemos tomar en función de ellos.

Acerca de la toma de decisiones, de vez en cuando, merece la pena recordar que el AUC es una métrica muy deficiente. En el enlace anterior se discute el asunto y se enlaza (¡cómo no!) con la asimetría de costes a la hora de tomar decisiones. Que los modelos estén (o parezcan) bien calibrados puede todavía encerrar diversos problemas, como los que se discuten aquí o aquí.

En este artículo, el autor tropieza con una aparente paradoja al tratar de ajustar modelos con `auto.arima y similares: obtiene distintos modelos con distintas interpretaciones que ajustan los datos de manera parecida. Que es algo de lo que ya hablé aquí.

Finalmente, dos sobre métodos de esos que pueden ser útiles a veces:

  1. Uno sobre cómo ajustar modelos de supervivencia bayesianos usando splines penalizados.
  2. Otro sobre los DLM (Distributed Lag Models), sobre los que tantas vueltas di en la época en que me dediqué a la epidemiología. Tratan sobre cómo modelizar retrasos en el impacto de una causa sobre un efecto.