Un experimento físico (y su relación con la causalidad) (II)

En esta entrada es continuación y discusión de la primera de la serie. En esta se va a discutir su relevancia en la discusión sobre lo que es la causalidad más allá de las técnicas que puedan existir para identificar y medir el tamaño de los efectos una vez que la causalidad está postulada.

Comenzaré haciendo notar una obviedad: el concepto de causalidad es ajeno a las matemáticas. Los hechos matemáticos no tienen causas sino razones o explicaciones. Que los catetos de un triángulo rectángulo midan 3 y 4 no es la causa de que su hipotenusa mida 5, sino su razón.

Nuevo vídeo en YouTube: "Causalidad: una charla con Carlos M. Madrid Casado"

Esta semana he tenido el placer y el honor de tener como invitado en mi canal a Carlos M. Madrid Casado para discutir el manido y usualmente maltratado tema de la causalidad. Lo hemos hecho desde varias perspectivas: la estadística, por supuesto; la de otras disciplinas con las que la estadística interactúa habitualmente, como la medicina, la física o la economía; y, finalmente, desde la filosófica, por ver qué se puede aportar desde esas coordenadas al asunto.

Un experimento físico (y su relación con la causalidad) (I)

En esta entrada voy a plantear y explicar el resultado de un experimento físico. Dejo para la siguiente la discusión de su relevancia para la discusión de la causalidad ya no tanto desde el punto de cuantificarla una vez postulada sino de su misma naturaleza.

El experimento —que aunque es físico, habrá de ser mental— es el siguiente: se toma un haz de palillos y se lanza hacia arriba de manera que los palillos roten en cualquier dirección, al azar. (Se supone, además, que no existe influencia notoria del rozamiento del aire, corrientes o alguna mano maliciosa que haya activado algún campo electromagnético arteramente).

La infradispersión como indicio de fraude

Hay gente que colecciona sellos, monedas, etc. Yo, fenómenos que presentan infradispersión manifiesta. La infradispersión es un fenómeno raro, mucho más infrecuente que la sobredispersión, del que ya me he ocupado previamente.

Frecuentemente, la infradispersión se da porque se busca, como aquí.

A veces, la infradispersión se da porque se comete un fraude y la gente que lo comete es un poco… gañana. Hay un ejemplo aquí que se refiere a ciertas elecciones en, cómo no, Rusia. También ciertos números de Rusia, particularmente, han motivado sospechas de que ciertos países pudieran estar no mostrando los números del covid que realmente son. Véase esto. de donde extraigo

Diagramas causales hiperbásicos (III): mediadores

Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda.

Esta vez, el diagrama causal es una pequeña modificación del de la anterior:

Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$. Variables como $Z$, conocidas como mediadores son muy habituales. Uno podría pensar que, realmente, ninguna $X$ actúa directamente sobre ninguna $Y$ sino a través de una serie de mecanismos que involucran a variables intermedias $Z_1, \dots, Z_n$ que constituyen una cadena causal. Puede incluso que se desencadenen varias de estas cadenas causales que transmitan a $Y$ la potencia de $X$. Que hablemos de la influencia causal de $X$ sobre $Y$ es casi siempre una hipersimplificación de la realidad.

Diagramas causales hiperbásicos (II): ¿qué significa "controlar por" una variable?

Esta es la segunda entrada de la serie sobre diagramas causales hiperbásicos. No se entenderá sin —y remito a— la entrada anterior que define el contexto, objetivo e hipótesis subyacentes de la serie completa.

El diagrama causal objeto de esta entrada es apenas una arista más complejo que el de la anterior:

Ahora la variable $Z$ afecta tanto a $Y$ (como en la entrada anterior) como a $X$ (esta es la novedad). Es una situación muy común en el análisis de datos. Algunos ejemplos:

Sobre la sistemática infraestimación del error en las encuestas

Las encuestas que se publican suelen estar acompañadas de una ficha técnica en la que, entre otras cosas, se especifica el error muestral. El error muestral está relacionado con la posibilidad de que la muestra no represente fidedignamente la población de interés, que tenga un sesgo producto exclusivamente del azar. Es decir, ignora el resto de los posibles sesgos que tengan una causa distinta.

Pero aquellas que recaban opiniones, etc. de personas humanas suelen dar por hecho que los datos recogidos de los sujetos muestrales son ciertos. Hoy quiero mencionar dos evidencias de lo contrario. De las que se induce que el error muestral de las encuestas podría ser una mera cota inferior que poca idea nos da de cuál podría ser la cota más interesante: la superior.

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones. No obstante, quiero dejar claro que:

Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva,

set.seed(1)
n <- 10000
sigma <- .1
x <- runif(n)
# coeficientes:
indep <- -1
b_0 <- .5
# variable objetivo:
error <- rnorm(n, 0, sigma)
y_0 <- indep + x * b_0 + error
# modelo:
modelo_0 <- lm(y_0 ~ x)
summary(modelo_0)

que da como resultado

Call:
lm(formula = y_0 ~ x)

Residuals:
     Min       1Q   Median       3Q      Max
-0.42844 -0.06697 -0.00133  0.06640  0.37449

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.001951   0.001967  -509.5   <2e-16 ***
x            0.500706   0.003398   147.3   <2e-16 ***

Residual standard error: 0.0989 on 9998 degrees of freedom
Multiple R-squared:  0.6847,	Adjusted R-squared:  0.6846
F-statistic: 2.171e+04 on 1 and 9998 DF,  p-value: < 2.2e-16

Me he limitado a construir el típico conjunto de datos que cumple las condiciones de libro para poder aplicar la regresión lineal y he reconstruido los parámetros originales a través del resultado de esta: el término independiente (-1), la pendiente (.5), la desviación estándar del error (.1), etc.

"Proxys": error y sesgo en modelos lineales

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema:

  1. Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$.
  2. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc.
  3. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$.

La pregunta que planteé consistía en elegir entre las siguientes tres opciones: