Nuevo vídeo en YouTube. Segunda entrega sobre causalidad (y, esta vez, datos observacionales)
El vídeo es
y abunda sobre el archiconocido correlación no implica causalidad. El artículo de Chris Anderson que se menciona es_ The End of Theory_.
El vídeo es
y abunda sobre el archiconocido correlación no implica causalidad. El artículo de Chris Anderson que se menciona es_ The End of Theory_.
El argumento del artículo Paraísos Fiscales, Wealth Taxation, and Mobility pivota esencialmente sobre el gráfico
que resultará familiar a muchos lectores de este blog (y, si no, mirad esto). Se trata de un estudio causal de libro en el que se pretende medir el efecto de una política ocurrida en 2010 sobre la línea roja y la línea azul.
La política en cuestión es la reintroducción del impuesto del patrimonio en España en 2010 y las líneas azul y rojas… no está claro. Deberían ser, pretenden ser, el incremento de personas sujetas a dicho impuesto en Madrid (en rojo) y en otras regiones (azul). Los autores lo resumen diciendo que el número de ricos viviendo en Madrid ha subido en 6000 mientras que en el resto de las 16 regiones ha decrecido en una media de 375. Convenientemente, 16 * 375 = 6000.
Acabo de subir a Youtube mi nuevo vídeo,
que es una somerísima introducción a la causalidad según Pearl. De hecho, el vídeo está basado en el epílogo de su libro, Causality, de 2000.
En el vídeo me refiero a dos fuentes de las que anuncio enlaces. Son:
[Una entrada más bien especulativa acerca de esbozos de ideas ocurridas durante un paseo vespertino por Madrid y que apunto aquí por no tener una servilleta a mano.]
El artítulo War, Socialism and the Rise of Fascism: An Empirical Exploration me ha hecho volver a reflexionar sobre el asunto de la causalidad (al que, además, debo un apartado en siempre inacabado libro de estadística para los mal llamados científicos de datos).
Voy a guardar el extracto
de The Art of Statitstics para usarlo con la misma malísima baba que su autor en coyunturas tales como esta:
Recordad las sabias palabras de Spiegelhalter: https://t.co/mne7xhMN3W pic.twitter.com/x8YZxiMvgp
— Carlos Gil Bellosta (@gilbellosta) September 30, 2020
Estoy aquí analizando datos para un cliente interesado en estudiar si como consecuencia de uno de esos impuestos modennos con los que las administraciones nos quieren hacer más sanos y robustos. En concreto, le he echado un vistazo a si el impuesto ha encarecido el precio de los productos gravados (sí) y si ha disminuido su demanda (no) usando CausalImpact
y me ha complacido mucho que la salida de summary(model, "report")
sea, literalmente, esta:
Un grupo de estudiantes se examina en horas distintas con exámenes parecidos pero no iguales. Se pretende estudiar si el examen tiene algún efecto sobre la nota final y para eso se hace algo así como
bmod_math <- lm(pcorrect ~ group, data = MathExam)
para obtener una distribución de la nota media por grupo descrita bien
cbind(estimate = coef(bmod_math), confint(bmod_math))
## estimate 2.5% 97.5%
## (Intercept) 57.600184 55.122708 60.07766
## group2 -2.332414 -5.698108 1.03328
o bien, gráficamente, así:
Si yo digo que X llegó a vivir 95 años con salud y añado que siempre siguió una dieta sana, nos parecería muy raro que alguien nos contestase: ¿para qué se sometió X a una dieta sana si, al final, iba a vivir 95 años?
Si digo que el país Y tiene una tasa de patentes por habitantes muy por encima de la media y añado que el gobierno invierte un porcentaje sustancial en I+D, nos parecería muy raro que alguien apostillase: ¿para qué invertir en I+D si, al final, esa gente no para de patentar?
Según este artículo, que explora la proporción de palabras relacionadas con la causalidad a lo largo de los dos últimos siglos, parece que sí (para el inglés).
Hice alguna búsqueda muy superficial en los n-gramas de Google y en español estoy obteniendo, precisamente, la tendencia contraria.
A ver si consigo el texto completo del artículo y, si encuentro un momento, trato de replicar lo que pueda. Y si alguien se me adelanta y me ahorra el trabajo, ¡tanto mejor!
Incumbent politicians tend to receive more votes when economic conditions are good. In this paper we explore the source of this correlation, exploiting the exceptional evidence provided by the Spanish Christmas Lottery. Because winning tickets are typically sold by one lottery outlet, winners tend to be geographically clustered. This allows us to study the impact of exogenous good economic conditions on voting behavior. We find that incumbents receive significantly more votes in winning provinces. The evidence is consistent with a temporary increase in happiness making voters more lenient toward the incumbent, or with a stronger preference for the status quo.
Distinguir adecuadamente causalidad de asociación es un tema sobre el que se han vertido ríos de tinta. Parte de la formación de un estadístico consiste en reconfigurar su arquitectura neuronal de manera que sienta infinito recelo ante proclamas de causalidad de una manera tan instintiva como la del perro de Paulov.
Esta cautela es sin duda necesaria y ha liberado al mundo de infinidad de resultados espúreos. Sin embargo, ha incrementado notablemente los que podríamos llamar errores de tipo II.