Aún más sobre la falacia ecológica
I.
Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia.
En aquella entrada fusilé/usufructé el siguiente gráfico:
En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:
- $y$ decrece con $x$ globalmente pero, a la vez,
- $y$ crece con $y$ para cada individuo.
La relación de $x$ e $y$ se invierte según se tenga o no en cuenta la variable de agrupación individuo
.
II.
Tratemos de reconstruir en seudocódigo ese gráfico. Necesitamos:
- Ubicar a los individuos; para ello hace falta:
- Una recta (decreciente) con sus parámetros $a_g$ y $b_g$
- Un error $\sigma_g$
- Luego, obtener los indicadores para cada individuo. Cada uno de ellos tiene asociada:
- Una recta con pendiente $a_i$ (positiva)
- Una dispersión $\sigma_i$.
- Una serie de hipótesis sobre los $a_i$ y los $\sigma_i$. Las alternativas más habituales son:
- Los $a_i$ y los $\sigma_i$ son (respectivamente) iguales.
- Los $a_i$ y los $\sigma_i$ siguen una determinada distribución (p.e., $a_i \sim N(1, .25)$).
Con eso y un poco de código en R, uno puede reproducir el gráfico de más arriba.
III.
¿Qué sería modelar? Modelar consistiría en obtener estimaciones de los parámetros de interés $a_g$, $\sigma_g$, $a_i$, $\sigma_i$. Con eso, no habría lugar a paradojas (de Simpson), falacias (ecológicas), variables confusoras ni nada por el estilo.
El problema que tantos ríos de tinta produce aparece cuando se estudia el problema a través de un modelo insuficiente (p.e., del tipo lm(y ~ x)
). Que lo es porque no representa adecuadamente el proceso de generación de datos. En muchos casos, un modelo insuficiente no es particularmente malo: las variables omitidas incrementan el error, achican la $R^2$ y ya. Pero en muchos otros casos, subvierten la interpretación del fenómeno.
IV.
Me dio por pensar que en un modelo (de regresión lineal o similar) con una $R^2$ baja hay más margen para que quepan variables subversivas. Aunque una $R^2$ baja, en principio, no invalida un modelo, sí que podría hacerle a uno pensar que la varianza inexplicada puede enmascarar alguna variable crítica (en el sentido de la discusión anterior).
Por supuesto, la idea anterior no es un teorema: se pueden elegir convenientemente los parámetros del sistema descrito en II para que el modelo engañoso lm(y ~ x)
tenga una $R^2$ arbitrariamente alta. No obstante, sospecho que como principio (y no como final), puede ser una herramienta útil.