Varios apuntes sobre causalidad
Lo más satisfactorio de la entrada Resolving disputes between J. Pearl and D. Rubin on causal inference es constatar cómo el autor, Andrew Gelman, también encuentra opacos conceptos muy pearlianos como el de collider of an M-structure.
La entrada de NadaEsGratis en cuestión se titula Consumo de alcohol entre los adolescentes y rendimiento educativo. Por dónde y cuándo se ha publicado, sabemos sin leerla que va a encontrar una relación negativa entre ambos. Pero el estudio está plagado de problemas (el uso de proxies, efectos pequeños, la gran cantidad de ruido, la falacia ecológica, etc.), cualquiera de los cuales hemos visto por sí solos poner en cuestión otros resultados en otras partes. Afortunadamente para el autor, como solo busca probar que la hierba es verde y que al agua moja, es muy probable que nadie lo cuestione con el manual de metodología en mano.
En La racionalidad económica de los criterios de imputación objetiva se discuten varias implementaciones en el derecho del concepto de causalidad.
dowhy
(y el ecosistema al que pertenece) es uno de esos paquetes que hace no tanto estarían en R y no en Python pero que resulta que es al revés. Permite realizar (según indica la documentación):
- Estimación de efectos: identificación, ATE, CATE, VVII y más.
- Cuantificación de influencias causales: análisis de mediación, fuerza de flechas directas, influencia causal intrínseca.
- Análisis de escenarios hipotéticos: generar muestras de la distribución de intervención, estimar contrafactuales.
- Análisis de causas raíz y explicaciones: atribuir anomalías a sus causas, encontrar causas de cambios en las distribuciones, estimar la relevancia de las variables y más.
Lo que cuenta en All Medications Are Insignificant In The Eyes Of God And Traditional Effect Size Criteria Scott Alexander, basado en el artículo Determining maximal achievable effect sizes of antidepressant therapies in placebo-controlled trials parece uno de esos teoremas de imposibilidad: si tienes un grupo de control/placebo con una variabilidad grande, es prácticamente imposible encontrar efectos positivos significativos (en términos de la d de Cohen).
Las 5 different reasons why it’s important to include pre-treatment variables when designing and analyzing a randomized experiment (or doing any causal study) según Andrew Gelman son:
- Ajustar por sesgos en diseños no aleatorizados.
- Ajustar por desequilibrios aleatorios en diseños aleatorizados (y por desequilibrios no aleatorios debido a aleatorización imperfecta, abandono, etc.).
- Reducir el error estándar del efecto estimado.
- Poder estudiar si hay desequilibrios y heterogeneidad entre los grupos de tratamiento y control.
- Poder generalizar a una población con una distribución diferente de x.
Es decir, hay cinco motivos menos para usar antiguallas como el t-test y similares.