Aún más sobre la falacia ecológica
I.
Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia.
En aquella entrada fusilé/usufructé el siguiente gráfico:
En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:
- y decrece con x globalmente pero, a la vez,
- y crece con y para cada individuo.
La relación de x e y se invierte según se tenga o no en cuenta la variable de agrupación individuo
.
II.
Tratemos de reconstruir en seudocódigo ese gráfico. Necesitamos:
- Ubicar a los individuos; para ello hace falta:
- Una recta (decreciente) con sus parámetros ag y bg
- Un error σg
- Luego, obtener los indicadores para cada individuo. Cada uno de ellos tiene asociada:
- Una recta con pendiente ai (positiva)
- Una dispersión σi.
- Una serie de hipótesis sobre los ai y los σi. Las alternativas más habituales son:
- Los ai y los σi son (respectivamente) iguales.
- Los ai y los σi siguen una determinada distribución (p.e., ai∼N(1,.25)).
Con eso y un poco de código en R, uno puede reproducir el gráfico de más arriba.
III.
¿Qué sería modelar? Modelar consistiría en obtener estimaciones de los parámetros de interés ag, σg, ai, σi. Con eso, no habría lugar a paradojas (de Simpson), falacias (ecológicas), variables confusoras ni nada por el estilo.
El problema que tantos ríos de tinta produce aparece cuando se estudia el problema a través de un modelo insuficiente (p.e., del tipo lm(y ~ x)
). Que lo es porque no representa adecuadamente el proceso de generación de datos. En muchos casos, un modelo insuficiente no es particularmente malo: las variables omitidas incrementan el error, achican la R2 y ya. Pero en muchos otros casos, subvierten la interpretación del fenómeno.
IV.
Me dio por pensar que en un modelo (de regresión lineal o similar) con una R2 baja hay más margen para que quepan variables subversivas. Aunque una R2 baja, en principio, no invalida un modelo, sí que podría hacerle a uno pensar que la varianza inexplicada puede enmascarar alguna variable crítica (en el sentido de la discusión anterior).
Por supuesto, la idea anterior no es un teorema: se pueden elegir convenientemente los parámetros del sistema descrito en II para que el modelo engañoso lm(y ~ x)
tenga una R2 arbitrariamente alta. No obstante, sospecho que como principio (y no como final), puede ser una herramienta útil.