Varios asuntos relacionados con la causalidad
I.
Tiene Andrew Gelman una entrada en su blog, Rubinism: separating the causal model from the Bayesian data analysis, que es, según se mire, relevante o trivial. Esencialmente distingue entre el RCM (modelo causal de Rubin) y el análisis bayesiano (de datos):
- El RCM (o modelo de los efectos potenciales en inferencia causal) lo resume como un modelo en el que se entiende que los datos proceden de una muestra en la que, en el mejor de los casos, se ha visto el efecto de un tratamiento dado en cada sujeto.
- El análisis bayesiano como un marco más amplio que puede servir para analizar el RCM (aunque hay alternativas) o para otras cuestiones.
A todo esto, el RCM se llama también modelo de Neyman-Rubin. Neyman (el de los intervalos de confianza) introdujo una versión limitada del modelo en su tesis de maestría de 1923 y muchos años después, en los 70, Donald Rubin lo extendió y generalizó en una serie de artículos como este.
II.
En otra entrada, History, historians, and causality en la que discute el paralelismo entre el análisis causal y la estadística bayesiana con el quehacer de los historiadores, Gelman abunda sobre el mismo punto: son actividades distintas que pueden ejercerse independientemente la una de la otra.
El otro tema del artículo es la relación entre la estadística (predicar sobre poblaciones a partir de una muestra) y la historia (predicar sobre periodos históricos a partir de fragmentos). Y sobre, además, cómo los historiadores, a diferencia de, por ejemplo, los economistas —y, supongo, los estadísticos—, no son tan amigos de generalizaciones urbi et orbi.
III.
De que ambos conceptos (el RCM y el análisis bayesiano), a pesar de la admonición anterior, se consideran íntimamente entretejidos da cuenta la entrada What should we expect in comparing human causal inference to Bayesian models? en el mismo blog (aunque, concedido, la confusión está más en el breve rótulo que en el contenido en sí del artículo).
IV.
Mucho de lo que trata el estudio de la causalidad en estadística, en el fondo, es lo que pasa cuando uno quiere estudiar fenómenos como
con modelos parciales que, por algún motivo, ignoran parte de la estructura generadora de los datos. Dicho de otra manera, cuando el modelo es manifiestamente incorrecto. El el caso anterior, por ejemplo, estudiando la regresión lineal $y \sim x_1$. Existe una solución evidente a todas estas discusiones bizantinas, reiterativas e irrelevantes:
- Abandonar los modelos triviales (como la regresión lineal).
- Modelizar adecuadamente la estructura generadora de datos tal cual es.
Nota: el gráfico anterior está extraído de Puzzling Regression Anatomy, donde el lector interesado encontrará, además, una discusión old style sobre el asunto.
V.
La mejor parte de la entrada Effects are correlated, policy outcomes are not, and multi-factor explanations are hard es la última en la que discute la sobredeterminación causal razonando sobre el diagrama
que describe las causas esgrimidas en el libro Guns, Germs and Steel de J. Diamond acerca de los motivos por los que la agricultura surgió en primer lugar en el llamado creciente fértil. El resumen es la obviedad de que no pueden coexistir múltiples causas poderosas e independientes.
VI.
Escribe Alfonso Novales en NadaEsGratis:
No cabe duda de que el dato que mencionan [una serie de titulares de prensa] es llamativo y preocupante, pero la redacción de titulares no es inocua: mientras que el Banco de España proporcionaba un enunciado meramente descriptivo, los titulares de prensa anteriores, referidos al informe del Banco de España, sugieren una relación de causalidad, según la cual los elevados alquileres son una causa principal de que un alto porcentaje de hogares que viven en régimen de alquiler se encuentren en riesgo de pobreza o exclusión social (RPES).
La prensa siempre toma el nombre de la causalidad en vano.
(El resto del artículo es, además, una ilustración muy interesante y práctica del uso del teorema de Bayes).
VII.
Los estudiosos de la causalidad en todas sus facetas disfrutarán del artículo Causalidad fáctica y causalidad jurídica: imputación objetiva o alcance de la responsabilidad publicado en el Almacén de Derecho y sobre el que guardo en la carpeta de borradores una pequeña recensión que aún me da pudor publicar.
VIII.
En Matching, missing data, a quasi-experiment, and causal inference realiza Solomon Kurz una inferencia causal sobre datos observacionales que tienen algunas variables omitidas. Así que imputa, empareja observaciones y, finalmente, modela y calcula el efecto deseado. Merece la pena ejecutar el código línea a línea y perder el tiempo explorando los objetos intermedios.
Una cosa que no me gusta de la aproximación a la que invitan los paquetes de R que usa (y cómo los usa) es que no sigue el procedimiento que me parece natural:
- Simular una imputación.
- Simular un emparejamiento.
- Modelar.
- Iterar cuantas veces se desee el procedimiento anterior.
- Extraer el resumen de los modelos ajustados en cada iteración.
- Aplicar, si procede, el ajuste de Rubin para tener en cuenta la varianza que introduce la imputación.