Causalidad

Invertir relaciones causales plausibles exige mucha, mucha explicación

Si yo digo que X llegó a vivir 95 años con salud y añado que siempre siguió una dieta sana, nos parecería muy raro que alguien nos contestase: ¿para qué se sometió X a una dieta sana si, al final, iba a vivir 95 años?

Si digo que el país Y tiene una tasa de patentes por habitantes muy por encima de la media y añado que el gobierno invierte un porcentaje sustancial en I+D, nos parecería muy raro que alguien apostillase: ¿para qué invertir en I+D si, al final, esa gente no para de patentar?

Más sobre correlaciones espurias y más sobre correlación y causalidad

Hoy toca esto:

Se trata de una invitación para leer el artículo Los picos de contaminación coinciden con un aumento radical en los ingresos hospitalarios, un cúmulo de desafueros epilogados por el ya habitual

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga.

Dizque al sexto mes... pero ¿y los datos?

He leído esto, que trata de lo distinta que es

a la izquierda y a la derecha de la línea roja punteada.

La historia contada desde las posterioris basadas en datos difiere de la apriorística (recordad: ideología = priori). En concreto

Reconoceréis una aplicación de causalImpact y lo que significa el gráfico está comentado en todas partes.

Código y datos, por mor de la reproducibilidad, aquí.

¿Importa más la causalidad hoy en día?

Según este artículo, que explora la proporción de palabras relacionadas con la causalidad a lo largo de los dos últimos siglos, parece que sí (para el inglés).

Hice alguna búsqueda muy superficial en los n-gramas de Google y en español estoy obteniendo, precisamente, la tendencia contraria.

A ver si consigo el texto completo del artículo y, si encuentro un momento, trato de replicar lo que pueda. Y si alguien se me adelanta y me ahorra el trabajo, ¡tanto mejor!

Lotería y elecciones: se non è vero...

Incumbent politicians tend to receive more votes when economic conditions are good. In this paper we explore the source of this correlation, exploiting the exceptional evidence provided by the Spanish Christmas Lottery. Because winning tickets are typically sold by one lottery outlet, winners tend to be geographically clustered. This allows us to study the impact of exogenous good economic conditions on voting behavior. We find that incumbents receive significantly more votes in winning provinces. The evidence is consistent with a temporary increase in happiness making voters more lenient toward the incumbent, or with a stronger preference for the status quo.

El impacto causal del óbito del Sr. Botín en la cotización bursátil del benemérito Banco de Santander

R

El Sr. Botín, presidente que fue del Banco de Santander, falleció el 2014-09-10. Cabe preguntarse por el impacto causal à la Google de no continuidad de su gestión a cargo de dicha institución.

Comienzo pues.

Primero los datos:

library(tseries)
library(CausalImpact)

santander <- get.hist.quote(instrument="san.mc",
    start= Sys.Date() - 365*3,
    end= Sys.Date(), quote="AdjClose",
    provider="yahoo", origin="1970-01-01",
    compression="d", retclass="zoo")

bbva <- get.hist.quote(instrument="bbva.mc",
    start= Sys.Date() - 365*3,
    end= Sys.Date(), quote="AdjClose",
    provider="yahoo", origin="1970-01-01",
    compression="d", retclass="zoo")

ibex <- get.hist.quote(instrument="^IBEX",
    start= Sys.Date() - 365*3,
    end= Sys.Date(), quote="AdjClose",
    provider="yahoo", origin="1970-01-01",
    compression="d", retclass="zoo")

obito.botin <- as.Date("2014-09-10")

cotizaciones <- cbind(santander, bbva, ibex)
cotizaciones <- cotizaciones[!is.na(cotizaciones$AdjClose.ibex)]

Con lo anterior, he bajado las cotizaciones diarias de las acciones del Banco de Santander, las del BBVA y la del IBEX 35 durante los últimos tres años. Eso deja la fecha de la muerte del Sr. Botín, aproximadamente, en la mitad.

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga

¡Olé!

Con la frase que titula esta entrada se cierra este artículo tan torero de eldiario.es.

El resto de lo que se publica me viene de perillas para ilustrar a mis alumnos del máster de ciencia de datos de KSchool eso de la dependencia e independencia condicional.

Lo que el artículo argumenta, y que nadie pone en duda, es que altas concentraciones de óxidos de nitrógeno (A) y picos de hospitalizaciones por enfermedades respiratiorias (B), no son eventos independientes. Es decir, que $latex P(A \cap B) \neq P(A)P(B)$. En otros términos, que nuestro conocimiento de A nos permite refinar nuestra estimación de B. Todo correcto.

¿Qué significa "vinculados de forma muy significativa"?

Diríase que dos fenómenos vinculados de forma muy significativa guardan una potente relación causal. Creo que eso es lo que entendería cualquiera.

Traigo pues a colación dos fenómenos. El primero es

suicidios_espana

Y el segundo,

suicidios_espana_suicidios

¿Diríais que están vinculados de forma muy significativa?

Pues si en lugar de fiaros de vuestros propios ojos, lo hacéis de Berta Rivera, Bruno Casal o Luis Currais, los autores de The economic crisis and death by suicide in Spain: Empirical evidence based on a data panel and the quantification of losses in labour productivity; o de David Lombao (que divulga el anterior aquí en El Diario), la respuesta es sí.

La correlación ni siquiera implica "correlación"

Esto es, según Andrew Gelman, la correlación entre dos variables en una muestra ni siquiera implica su “correlación” (entre comillas, por distinguirlas) en la población de interés.

El enlace anterior también discute otras variantes del archiconocido “la correlación no implica causalidad”, tales como

  • la causalidad está correlacionada con la correlación,
  • la falta de correlación está correlacionada con la falta de causalidad,
  • etc.

que, si yo fuera tú, me apresuraría a consultar en el enlace anterior.

El impacto (causal) de Google

Voy a escribir sobre un artículo como no debe hacerse: sin haberlo leído. Los bayesianos dirían que esta opinión que aquí voy a vertir es mi prior para cuando encuentre el tiempo y bajo la cual matizaré lo que en el se diga. Lo advierto, en todo caso, para que quien me lea no renuncie al sanísimo escepticismo.

Voy a hablar de Inferring causal impact using Bayesian structural time-series models y del paquete de R que lo acompaña, CausalImpact, cuyos autores trabajan en Google.

Causalidad a la Pearl y el operador do

Un tipo me pasó el librito de Pearl, Causality, y se ha pasado varios días dando la vara con que si me había leído ya el epígrafe. Pues sí, lo he leído este finde. Y no solo lo he leído sino que voy a escribir sobre ello.

Había tratado de leer cosas de Pearl en el pasado. Pero las encontraba demasiado llenas de letras difíciles de comprender si no se entendían bien las fórmulas. Que, a su vez, eran difíciles de comprender sin tener una idea clara de qué indicaban los diagramas adjuntos. Para cuya comprensión había que hacerse bien con el texto. Vamos, que nunca había sacado nada en claro. Aunque, confieso, la coyuntura en la que suelo leer ese tipo de cosas (metros, trenes, autobuses) tampoco me ayuda.