Aún más sobre la falacia ecológica

I.

Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia.

En aquella entrada fusilé/usufructé el siguiente gráfico:

En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:

  • $y$ decrece con $x$ globalmente pero, a la vez,
  • $y$ crece con $y$ para cada individuo.

La relación de $x$ e $y$ se invierte según se tenga o no en cuenta la variable de agrupación individuo.

II.

Tratemos de reconstruir en seudocódigo ese gráfico. Necesitamos:

  • Ubicar a los individuos; para ello hace falta:
    • Una recta (decreciente) con sus parámetros $a_g$ y $b_g$
    • Un error $\sigma_g$
  • Luego, obtener los indicadores para cada individuo. Cada uno de ellos tiene asociada:
    • Una recta con pendiente $a_i$ (positiva)
    • Una dispersión $\sigma_i$.
  • Una serie de hipótesis sobre los $a_i$ y los $\sigma_i$. Las alternativas más habituales son:
    • Los $a_i$ y los $\sigma_i$ son (respectivamente) iguales.
    • Los $a_i$ y los $\sigma_i$ siguen una determinada distribución (p.e., $a_i \sim N(1, .25)$).

Con eso y un poco de código en R, uno puede reproducir el gráfico de más arriba.

III.

¿Qué sería modelar? Modelar consistiría en obtener estimaciones de los parámetros de interés $a_g$, $\sigma_g$, $a_i$, $\sigma_i$. Con eso, no habría lugar a paradojas (de Simpson), falacias (ecológicas), variables confusoras ni nada por el estilo.

El problema que tantos ríos de tinta produce aparece cuando se estudia el problema a través de un modelo insuficiente (p.e., del tipo lm(y ~ x)). Que lo es porque no representa adecuadamente el proceso de generación de datos. En muchos casos, un modelo insuficiente no es particularmente malo: las variables omitidas incrementan el error, achican la $R^2$ y ya. Pero en muchos otros casos, subvierten la interpretación del fenómeno.

IV.

Me dio por pensar que en un modelo (de regresión lineal o similar) con una $R^2$ baja hay más margen para que quepan variables subversivas. Aunque una $R^2$ baja, en principio, no invalida un modelo, sí que podría hacerle a uno pensar que la varianza inexplicada puede enmascarar alguna variable crítica (en el sentido de la discusión anterior).

Por supuesto, la idea anterior no es un teorema: se pueden elegir convenientemente los parámetros del sistema descrito en II para que el modelo engañoso lm(y ~ x) tenga una $R^2$ arbitrariamente alta. No obstante, sospecho que como principio (y no como final), puede ser una herramienta útil.