Estadística

Ajuste de modelos lineales y predicción de valores con numpyro

Una de mis aficiones más excusables es la de participar en el mercado de predicciones de Hypermind. Una de las preguntas que se suele plantear anualmente —y en la que, gracias a apostar contra el común/apocalíptico sentir, logré pingües beneficios el año pasado— tiene que ver con cuándo nos vamos a morir todos. De otra manera:

Este año también quiero participar, pero como no sabía por dónde empezar, he bajado los datos. En su perspectiva más relevante, tienen este aspecto:

Llevando la contabilidad de los grados de libertad

Esta entrada es una pequeña exégesis de esto:

Lo que se ve es el resultado del ajuste de una curva logística de cuatro parámetros a una serie de datos. En particular, voy a discutir qué es eso de la logística de cuatro parámetros, por qué el ajuste es bueno y qué tienen que ver los grados de libertad en todo esto.

La función logística de cuatro parámetros es la función logística de toda la vida,

Funciones de enlace "por defecto" en (ciertos) GLMs

Después de publicar Una regresión de Poisson casi trivial con numpyro me riñeron por usar la identidad como función de enlace en la regresión de Poisson. Es decir, por especificarlo como

$$\lambda_t = a + b t$$

en lugar del estándar

$$\lambda_t = \exp(a + b t).$$

Hay varias cosas bastante bien conocidas y una que lo es bastante menos —y que resulta mucho más paradójica— que decir al respecto.

Antes necesito añadir que:

Una regresión de Poisson casi trivial con numpyro

El otro día hubo, parece, cierto interés por modelar la siguiente serie histórica de datos:

Notas al respecto:

  1. El eje horizontal representa años, pero da igual cuáles.
  2. El eje vertical son números naturales, conteos de cosas, cuya naturaleza es poco relevante aquí, más allá de que se trata de eventos independientes.
  3. Se especulaba con un posible cambio de tendencia debido a una intervención ocurrida en alguno de los años centrales de la serie.

Lo que se ve es el resultado del ajuste de un modelo de Poisson casi trivial. Es casi trivial porque utiliza el tipo más simple de splines para modelar una tendencia quebrada en un punto desconocido, uno de los parámetros del modelo.

Sobre la correlación entre Y y la predicción de Y

Supongamos que tenemos un modelo construido sobre unos datos $(x_i, y_i)$. Para cada $x_i$, el valor $y_i$ es una realización de una variable aleatoria $Y_i$ con distribución $F_i(y)$. Por simplificar, podemos suponer, además, que para el ajuste se utiliza el error cuadrático.

Entonces, lo mejor que puede hacer el modelo es encontrar la media $\mu_i$ de cada $Y_i$ —bueno, en realidad, querría encontrar $\mu_x$ para cada $x$ potencial, pero hoy vamos a dejar esa discusión aparcada—.

Significativo vs significativo

Con esta entrada voy a abundar en una literatura ya muy extensa y que muchos encontrarán ya, con razón, aburrida, sobre las diferencias entre significativo y significativo.

Véase:

En 2006, el ingreso anual bruto medio de los médicos era de 70.717 USD […] para los países con el sistema Bismark y 119.911 USD […] para los del sistema Beveridge. Las diferencias no son significativas (p=0.178).

Olé.

El párrafo está extraído de PNS89 International comparison of the remuneration of physicians among countries with bismarck and beveridge health care system y traducido por un servidor.

Raking, Introducción al

I.

Ni que decirse tiene que a partir de las probabilidades conjuntas pueden construirse las marginales: se integra (o suma) y ya.

II.

El problema inverso es irresoluble: es imposible reconstruir las conjuntas a partir de las marginales. Las conjuntas, condicionadas a las marginales, pueden tener muchos grados de libertad.

Sin embargo, a petición de los usuarios finales, los comerciales de la estadística se han comprometido históricamente a resolver ese problema de manera científica. Así que los curritos de la estadística, supongo que muy a su pesar, han tenido que desarrollar cosas como las cópulas —esas sí que son verdaderas weapons of math destruction— y el raking, que es lo que nos ocupa hoy.

Sobre la llamada ley del estadístico inconsciente

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como

$$E[X] = \int x dP_X(x).$$

Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces

$$E[Y] = \int y dP_Y(y)$$

para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que

Operacionalización de la "igualdad de oportunidades"

Tiene Google (o una parte de él) un vídeo en Youtube,

sobre el que me resulta imposible no comentar nada. Trata, esencialmente, de cómo operacionalizar a la hora de poner en marcha modelos esos principios de justicia, igualdad de oportunidades, etc. de los que tanto se habla últimamente.

Sobre la "African dummy"

2022 es un mal año para recordar un asunto sobre el que tenía anotado hablar desde los inicios del blog, allá por 2010: la llamada African dummy. Mentiría, sin embargo, si dijese que no es oportuno: está relacionado con temas que hoy se consideran importantes, aunque tratado al estilo de los noventa. Es decir, de una manera inaceptablemente —para el paladar de hogaño— distinta.

La cosa es más o menos así: en el 91, a R. Barro, macroeconomista de pro, se le ocurrió publicar Growth in a cross section of countries. En el usó métodos de regresión clásica —recuérdese: macroeconomista en los 90— para estudiar qué variables explicaban el desigual crecimiento económico de los países. Se cuenta que el hombre torturó y torturó los datos para que aquello ajustase sin éxito… hasta que introdujo una singular y, por un tiempo, famosa variable: la African dummy , i.e., estar o no estar en África.