Causalidad

Nuevo vídeo en YouTube: "Causalidad: una charla con Carlos M. Madrid Casado"

Esta semana he tenido el placer y el honor de tener como invitado en mi canal a Carlos M. Madrid Casado para discutir el manido y usualmente maltratado tema de la causalidad. Lo hemos hecho desde varias perspectivas: la estadística, por supuesto; la de otras disciplinas con las que la estadística interactúa habitualmente, como la medicina, la física o la economía; y, finalmente, desde la filosófica, por ver qué se puede aportar desde esas coordenadas al asunto.

Un experimento físico (y su relación con la causalidad) (I)

En esta entrada voy a plantear y explicar el resultado de un experimento físico. Dejo para la siguiente la discusión de su relevancia para la discusión de la causalidad ya no tanto desde el punto de cuantificarla una vez postulada sino de su misma naturaleza.

El experimento —que aunque es físico, habrá de ser mental— es el siguiente: se toma un haz de palillos y se lanza hacia arriba de manera que los palillos roten en cualquier dirección, al azar. (Se supone, además, que no existe influencia notoria del rozamiento del aire, corrientes o alguna mano maliciosa que haya activado algún campo electromagnético arteramente).

Diagramas causales hiperbásicos (III): mediadores

Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda.

Esta vez, el diagrama causal es una pequeña modificación del de la anterior:

Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$. Variables como $Z$, conocidas como mediadores son muy habituales. Uno podría pensar que, realmente, ninguna $X$ actúa directamente sobre ninguna $Y$ sino a través de una serie de mecanismos que involucran a variables intermedias $Z_1, \dots, Z_n$ que constituyen una cadena causal. Puede incluso que se desencadenen varias de estas cadenas causales que transmitan a $Y$ la potencia de $X$. Que hablemos de la influencia causal de $X$ sobre $Y$ es casi siempre una hipersimplificación de la realidad.

Diagramas causales hiperbásicos (II): ¿qué significa "controlar por" una variable?

Esta es la segunda entrada de la serie sobre diagramas causales hiperbásicos. No se entenderá sin —y remito a— la entrada anterior que define el contexto, objetivo e hipótesis subyacentes de la serie completa.

El diagrama causal objeto de esta entrada es apenas una arista más complejo que el de la anterior:

Ahora la variable $Z$ afecta tanto a $Y$ (como en la entrada anterior) como a $X$ (esta es la novedad). Es una situación muy común en el análisis de datos. Algunos ejemplos:

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones. No obstante, quiero dejar claro que:

Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva,

set.seed(1)
n <- 10000
sigma <- .1
x <- runif(n)
# coeficientes:
indep <- -1
b_0 <- .5
# variable objetivo:
error <- rnorm(n, 0, sigma)
y_0 <- indep + x * b_0 + error
# modelo:
modelo_0 <- lm(y_0 ~ x)
summary(modelo_0)

que da como resultado

Call:
lm(formula = y_0 ~ x)

Residuals:
     Min       1Q   Median       3Q      Max
-0.42844 -0.06697 -0.00133  0.06640  0.37449

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.001951   0.001967  -509.5   <2e-16 ***
x            0.500706   0.003398   147.3   <2e-16 ***

Residual standard error: 0.0989 on 9998 degrees of freedom
Multiple R-squared:  0.6847,	Adjusted R-squared:  0.6846
F-statistic: 2.171e+04 on 1 and 9998 DF,  p-value: < 2.2e-16

Me he limitado a construir el típico conjunto de datos que cumple las condiciones de libro para poder aplicar la regresión lineal y he reconstruido los parámetros originales a través del resultado de esta: el término independiente (-1), la pendiente (.5), la desviación estándar del error (.1), etc.

Garantías de robustez en inferencia causal

Por motivos que no vienen al caso, me ha tocado ponderar el artículo The use of controls in interrupted time series studies of public health interventions. Lo comento hoy porque hace referencia a temas que me ha gustado tratar en el pasado.

El artículo, prima facie, es un poco viejuno. De hecho, casi todo lo que se escribe sobre metodología en el mundo de las aplicaciones (y el que cito tiene que ver con salud pública) tiene tufillo de naftalina. Para cuando un resultado metodológico llega al común conocimiento de quienes se dedican a la sociología, ciencia política, salud pública, etc., los estadísticos ya han aprendido un montón de cosas nuevas y mucho más guays.

La miseria de la inferencia causal vivida

X escribe en 2020:

In particular, panel A presents the results when the municipalities are divided according to the real average Internet speed (Mbps). As is evident, the effect of extreme-right mayors on hate crimes is concentrated in municipalities where Internet speed is high, especially when the intensive margin is considered […]

Y escribe también en 2020:

Results show that Internet availability between 2008 and 2012 is associated with a better knowledge of (national) immigration dynamics and that it leads to an overall improvement in attitudes towards immigrants.

Causalidad inversa: más sobre los momentos "Le Verrier"

Escribí el otro día sobre los llamados momentos Le Verrier. Que, siguiendo la nomenclatura de Why ask why? Forward causal inference and reverse causal questions no son otra cosa que ejercicios de causalidad inversa con final feliz.

Efectivamente, según el artículo, las cuestiones de índole causal son de dos tipos: prospectivas y retrospectivas (o inversas), en una traducción muy libre. Las primeras, más habituales, se refieren a cuáles serán los efectos de una causa. ¿Qué pasará si aumento mi presupuesto de publicidad? ¿Qué pasará con la temperatura de un dispositivo si aumento la potencia? Etc. Son preguntas a las que responden los modelos, sea a través del estudio de una serie de coeficientes, realizando predicciones, etc.

Causalidad y paraísos fiscales

El argumento del artículo Paraísos Fiscales, Wealth Taxation, and Mobility pivota esencialmente sobre el gráfico

que resultará familiar a muchos lectores de este blog (y, si no, mirad esto). Se trata de un estudio causal de libro en el que se pretende medir el efecto de una política ocurrida en 2010 sobre la línea roja y la línea azul.

La política en cuestión es la reintroducción del impuesto del patrimonio en España en 2010 y las líneas azul y rojas… no está claro. Deberían ser, pretenden ser, el incremento de personas sujetas a dicho impuesto en Madrid (en rojo) y en otras regiones (azul). Los autores lo resumen diciendo que el número de ricos viviendo en Madrid ha subido en 6000 mientras que en el resto de las 16 regiones ha decrecido en una media de 375. Convenientemente, 16 * 375 = 6000.