Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones. No obstante, quiero dejar claro que:

  1. Explicitaré las relaciones entre las variables usando la distribución normal. Pero solo porque es la manera más simple y familiar de hacerlo: otros métodos harían la exposición más compleja y la lectura menos amena.
  2. Usaré como herramienta de análisis la regresión lineal, pero podría utilizar otras (árboles, etc.) para obtener resultados análogos.

El diagrama causal de hoy es, prácticamente, el más simple que cabe concebir: $X$ tiene un efecto en $Y$ (el que se quiere estimar) y $Z$ tiene otro efecto en $Y$ que nos es indiferente. Gráficamente:

¿En qué variarán las regresiones Y ~ X e Y ~ X + Z? Voy a ilustrarlo con un ejemplo concreto basado en una simulación de los datos que es una de las posibles manifestaciones del diagrama causal anterior:

n <- 1000
x <- rnorm(n)
z <- rnorm(n)
y <- .5 * x + .2 * z + rnorm(n, 0, .1)

(Para los nuevos en el asunto: al ser $X$ y $Z$ fuente pero no sumidero de fechas, podemos inicializar esas variables como mejor nos parezca; el que dependa $Y$ de ambas significa que esta tiene que ser función de aquellas.)

Comenzaré con la regresión Y ~ X. Tal como se ha definido $Y$, cabe esperar que el coeficiente de $X$ sea aproximadamente $0.5$. Y en efecto, summary(lm(Y ~ X)) da

             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.008209   0.007122  -1.153    0.249
x            0.494448   0.006864  72.033   <2e-16 ***

Residual standard error: 0.2249 on 998 degrees of freedom
Multiple R-squared:  0.8387,	Adjusted R-squared:  0.8385
F-statistic:  5189 on 1 and 998 DF,  p-value: < 2.2e-16

Por otro lado, summary(lm(Y ~ X + Z)) da

            Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.001920   0.003172   0.605    0.545
x           0.506494   0.003059 165.598   <2e-16 ***
z           0.198410   0.003118  63.630   <2e-16 ***

Residual standard error: 0.1 on 997 degrees of freedom
Multiple R-squared:  0.9681,	Adjusted R-squared:  0.9681
F-statistic: 1.514e+04 on 2 and 997 DF,  p-value: < 2.2e-16

¿En qué se parecen? Esencialmente, en la estimación del coeficiente de $X$: es, como cabría esperar, aproximadamente $0.5$.

¿En qué difieren? Esencialmente, en el error del modelo. En el más simple, la sd residual es de .22 y en el más complejo, de 0.1 (que es, como cabría esperar de nuevo, el especificado en la construcción de $Y$, i.e., el real). Estas diferencias en el tamaño de los residuos se trasladan al resto de los estadísticos: la $R^2$, etc.

Nótese que, en general, el error residual de un modelo lineal recoge la influencia de todas las variables potencialmente incluibles en la regresión pero que quedan fuera de él por distintos motivos. Introducir variables similares —aquí similares tiene un significado muy concreto que aclarará en las siguientes entradas de las serie— a $Z$ ayuda a reducir el error residual y, por lo tanto, los estadísticos que dependen de él, como la mencionada $R^2$. Pero no tiene mayor impacto en la medición del efecto de interés.

Notas adicionales

Esta es una entrada ridículamente simple. Además, la he tratado con una muy inhabitual deferencia hacia los que menos saben de estas cosas. Alguien podría acusarme de estar ablandándome y bajando el nivel. Pero incluso gente que debería saber del asunto realiza manifestaciones públicas en las que uno aprende que no y que lo obligan a uno a escribir cosas como Hay mil motivos para criticar una regresión “trucha”, pero una R² baja no es uno de ellos o Sobre las R² pequeñas y sus interpretaciones, que son esta misma entrada escrita de otra manera.

Porque, efectivamente, en las ciencias duras existen pocas $Z$ desconocidas: ciertas condiciones de laboratorio y poco más. Por eso gozan de $R^2$ elevadas. Sin embargo, en las ciencias blandengues, hay más variables $Z$ ensuciando los modelos que los que una vida entera dedicada al asunto permitiría enumerar y los que viven de ellas tienen que conformarse con $R^2$ bajos. Este, además, no sería un problema si las $Z$ obedeciesen el diagrama causal motivo de la entrada de hoy: como se ha visto, la estimación del coeficiente de $X$ no se ha visto alterada por la inclusión o exclusión de $Z$. El problema surge realmente cuando se complica la relación causal entre las variables. Pero ese es tema para las subsiguientes entradas de la serie.