Causalidad

Villaverde, Carabanchel, Puente de Vallecas, Tetuán, Ciudad Lineal, Usera, Villa de Vallecas, Latina, San Blas-Canillejas, Hortaleza, Moratalaz, Vicálvaro, Retiro, Fuencarral-El Pardo, Arganzuela, Moncloa-Aravaca, Chamartín, Barajas, Centro, Chamberí, Salamanca

La anterior es una lista de los 21 distritos del municipio de Madrid en un orden muy concreto. Si se te ocurre alguno, casi seguro, te has equivocado.

Porque se trata de una lista en estricto orden de porcentaje de colegios públicos de primaria (CEIP) que ofrecen clases en modalidad de jornada continua:

Los datos completos pueden consultarse aquí. Las fuentes son el CISF para el numerador y el buscador de colegios de la Comunidad de Madrid para el denominador.

La paradoja de Lord, de nuevo

Escribí sobre la paradoja de Lord en 2013 y luego otra vez, tangencialmente, en 2020. Hace poco releí el artículo de Pearl sobre el tema y comoquiera que su visión sobre el asunto es muy distinta de la mía, voy a tratar de desarrollarla.

Aunque supongo que es generalizable, la llamada paradoja de Lord se formuló inicialmente al estudiar y comparar datos antes/después. En su descripción original de mediados de los 60, había niños y niñas a los que se había pesado en junio y en septiembre. El problema (y la paradoja) aparecían al tratar de modelar esa variación de peso según el sexo.

"Generalized random forests": una introducción

Los generalized random forests (GRF en lo sucesivo) han cobrado cierta relevancia recientemente porque una de sus potenciales variantes son los llamados causal forests: RRFF adaptados para medir el tamaño de una intervención causal.

Lo que voy a contar aquí es un resumen de lo que aprendí echándole un vistazo al artículo relevante de la cosa.

[Nota: voy a simplificar un poco con respecto a lo que aparecen en el artículo por aligerar la introducción; recuérdese: este es un mapa del territorio y el territorio en sí mismo.]

Causalidad e individualismo metodológico

Frecuentemente, se postulan y estudian relaciones causales del tipo

donde, por simplificar, se han eliminado las variables de confusión, etc. para mostrar su versión más estilizada, la que acaba en los abstracts.

Frecuentemente, además, $C$ y $E$ hacen referencia a magnitudes macro: una campaña de publicidad y los ingresos; una medida económica y el PIB; la presión y el volumen de un gas, etc. Todos sabemos que en esos casos, el diagrama anterior es solo una manera abreviada de representar el verdadero diagrama causal,

¿Por qué no funcionan las intervenciones buenistas?

El otro día, en mi entrada sobre la estadística en las ciencias blandengues, me cité el ensayo Nothing Scales del que extraje el parrafito

But trying to analyze this is very rare, which is a disaster for social science research. Good empirical social science almost always focuses on estimating a causal relationship: what is β in Y = α + βX + ϵ? But these relationships are all over the place: there is no underlying β to be estimated! Let’s ignore nonlinearity for a second, and say we are happy with the best linear approximation to the underlying function. The right answer here still potentially differs for every person, and at every point in time.* Your estimate is just some weighted average of a bunch of unit-specific βs, even if you avoid randomized experiments and run some other causal inference approach on the entire population.

Un experimento físico (y su relación con la causalidad) (II)

En esta entrada es continuación y discusión de la primera de la serie. En esta se va a discutir su relevancia en la discusión sobre lo que es la causalidad más allá de las técnicas que puedan existir para identificar y medir el tamaño de los efectos una vez que la causalidad está postulada.

Comenzaré haciendo notar una obviedad: el concepto de causalidad es ajeno a las matemáticas. Los hechos matemáticos no tienen causas sino razones o explicaciones. Que los catetos de un triángulo rectángulo midan 3 y 4 no es la causa de que su hipotenusa mida 5, sino su razón.

Nuevo vídeo en YouTube: "Causalidad: una charla con Carlos M. Madrid Casado"

Esta semana he tenido el placer y el honor de tener como invitado en mi canal a Carlos M. Madrid Casado para discutir el manido y usualmente maltratado tema de la causalidad. Lo hemos hecho desde varias perspectivas: la estadística, por supuesto; la de otras disciplinas con las que la estadística interactúa habitualmente, como la medicina, la física o la economía; y, finalmente, desde la filosófica, por ver qué se puede aportar desde esas coordenadas al asunto.

Un experimento físico (y su relación con la causalidad) (I)

En esta entrada voy a plantear y explicar el resultado de un experimento físico. Dejo para la siguiente la discusión de su relevancia para la discusión de la causalidad ya no tanto desde el punto de cuantificarla una vez postulada sino de su misma naturaleza.

El experimento —que aunque es físico, habrá de ser mental— es el siguiente: se toma un haz de palillos y se lanza hacia arriba de manera que los palillos roten en cualquier dirección, al azar. (Se supone, además, que no existe influencia notoria del rozamiento del aire, corrientes o alguna mano maliciosa que haya activado algún campo electromagnético arteramente).

Diagramas causales hiperbásicos (III): mediadores

Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda.

Esta vez, el diagrama causal es una pequeña modificación del de la anterior:

Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$. Variables como $Z$, conocidas como mediadores son muy habituales. Uno podría pensar que, realmente, ninguna $X$ actúa directamente sobre ninguna $Y$ sino a través de una serie de mecanismos que involucran a variables intermedias $Z_1, \dots, Z_n$ que constituyen una cadena causal. Puede incluso que se desencadenen varias de estas cadenas causales que transmitan a $Y$ la potencia de $X$. Que hablemos de la influencia causal de $X$ sobre $Y$ es casi siempre una hipersimplificación de la realidad.

Diagramas causales hiperbásicos (II): ¿qué significa "controlar por" una variable?

Esta es la segunda entrada de la serie sobre diagramas causales hiperbásicos. No se entenderá sin —y remito a— la entrada anterior que define el contexto, objetivo e hipótesis subyacentes de la serie completa.

El diagrama causal objeto de esta entrada es apenas una arista más complejo que el de la anterior:

Ahora la variable $Z$ afecta tanto a $Y$ (como en la entrada anterior) como a $X$ (esta es la novedad). Es una situación muy común en el análisis de datos. Algunos ejemplos: