Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda.
Esta vez, el diagrama causal es una pequeña modificación del de la anterior:

Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$. Variables como $Z$, conocidas como mediadores son muy habituales. Uno podría pensar que, realmente, ninguna $X$ actúa directamente sobre ninguna $Y$ sino a través de una serie de mecanismos que involucran a variables intermedias $Z_1, \dots, Z_n$ que constituyen una cadena causal. Puede incluso que se desencadenen varias de estas cadenas causales que transmitan a $Y$ la potencia de $X$. Que hablemos de la influencia causal de $X$ sobre $Y$ es casi siempre una hipersimplificación de la realidad.
Como en las entradas anteriores de la serie, voy a volver a simular datos para comparar las regresiones Y ~ X e Y ~ X + Z:
x <- rnorm(n)
z <- .8 * x + rnorm(n)
y <- .5 * x + .2 * z + rnorm(n, 0, .1)Incluyendo Z, es decir, ajustando lm(Y ~ X + Z), se obtiene
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002671 0.003127 -0.854 0.393
x 0.503470 0.004018 125.305 <2e-16 ***
z 0.195947 0.003145 62.302 <2e-16 ***
Residual standard error: 0.09877 on 997 degrees of freedom
Multiple R-squared: 0.9811, Adjusted R-squared: 0.9811
F-statistic: 2.588e+04 on 2 and 997 DF, p-value: < 2.2e-16que identifica correctamente los coeficientes del modelo generativo. Sin embargo, si se omite Z, i.e., ajustando lm(Y ~ X), se obtiene
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.003313 0.006913 -0.479 0.632
x 0.666681 0.006736 98.976 <2e-16 ***
Residual standard error: 0.2184 on 998 degrees of freedom
Multiple R-squared: 0.9075, Adjusted R-squared: 0.9075
F-statistic: 9796 on 1 and 998 DF, p-value: < 2.2e-16donde el coeficiente de X se ha estimado como $.66$. Podría parecer un sesgo, pero no lo es: $.66$ es el efecto total de X sobre Y. Es decir, la suma del efecto directo, $.5$ y el efecto indirecto, $0.2 \times 0.8$ a través de Z.
Hasta aquí todo correcto.
Sin embargo, la causalidad (y el gráfico causal que aparece en la entrada) son conceptos metaestadísticos. Al fin y al cabo, el conjunto de datos (X, Y, Z) creado no deja de ser una variable normal tridimiensional con media cero y matriz de covarianzas
cov(cbind(x, z, y))
# x z y
# x 1.0560331 0.8651563 0.7009087
# z 0.8651563 1.7489359 0.7780376
# y 0.7009087 0.7780376 0.5149983Por tanto, alguien podría haber argumentado que el verdadero modelo generativo es
z2 <- rnorm(n, 0, sd(z))
m <- lm(x ~ z)
x2 <- coef(m)[2] * z2 + rnorm(n, 0, sd(residuals(m)))
y2 <- .5 * x2 + .2 * z2 + rnorm(n, 0, .1)que también da lugar a una variable normal tridimensional de media cero y matriz de covarianzas
cov(cbind(x2, z2, y2))
# x2 z2 y2
# x2 1.1087920 0.9406288 0.7431180
# z2 0.9406288 1.8412636 0.8371988
# y2 0.7431180 0.8371988 0.5485281pero donde se invierte la relación causal entre X y Z y esta última variable se convierte en un confusor (como en la segunda entrada de la serie). En tal caso, la regresión que incluye Z,
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.003360 0.003146 -1.068 0.286
x2 0.499728 0.003862 129.380 <2e-16 ***
z2 0.202869 0.003038 66.772 <2e-16 ***
Residual standard error: 0.09944 on 997 degrees of freedom
Multiple R-squared: 0.9801, Adjusted R-squared: 0.9801
F-statistic: 2.456e+04 on 2 and 997 DF, p-value: < 2.2e-16seguiría dándose por buena. Sin embargo, la que la excluye, es decir, Y ~ X,
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.006290 0.007354 -0.855 0.393
x2 0.654061 0.007235 90.398 <2e-16 ***
Residual standard error: 0.2325 on 998 degrees of freedom
Multiple R-squared: 0.8912, Adjusted R-squared: 0.8911
F-statistic: 8172 on 1 and 998 DF, p-value: < 2.2e-16que vuelve a generar aproximadamente el mismo coeficiente que antes, i.e., aproximadamente $.66$, sería descartada por sesgada por los motivos planteados la semana pasada.