Diagramas causales hiperbásicos (III): mediadores

Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda. Esta vez, el diagrama causal es una pequeña modificación del de la anterior: Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$. Variables como $Z$, conocidas como mediadores son muy habituales. Uno podría pensar que, realmente, ninguna $X$ actúa directamente sobre ninguna $Y$ sino a través de una serie de mecanismos que involucran a variables intermedias $Z_1, \dots, Z_n$ que constituyen una cadena causal. Puede incluso que se desencadenen varias de estas cadenas causales que transmitan a $Y$ la potencia de $X$. Que hablemos de la influencia causal de $X$ sobre $Y$ es casi siempre una hipersimplificación de la realidad. ...

22 de marzo de 2022 · Carlos J. Gil Bellosta

Diagramas causales hiperbásicos (II): ¿qué significa "controlar por" una variable?

Esta es la segunda entrada de la serie sobre diagramas causales hiperbásicos. No se entenderá sin —y remito a— la entrada anterior que define el contexto, objetivo e hipótesis subyacentes de la serie completa. El diagrama causal objeto de esta entrada es apenas una arista más complejo que el de la anterior: Ahora la variable $Z$ afecta tanto a $Y$ (como en la entrada anterior) como a $X$ (esta es la novedad). Es una situación muy común en el análisis de datos. Algunos ejemplos: ...

18 de marzo de 2022 · Carlos J. Gil Bellosta

Sobre la sistemática infraestimación del error en las encuestas

Las encuestas que se publican suelen estar acompañadas de una ficha técnica en la que, entre otras cosas, se especifica el error muestral. El error muestral está relacionado con la posibilidad de que la muestra no represente fidedignamente la población de interés, que tenga un sesgo producto exclusivamente del azar. Es decir, ignora el resto de los posibles sesgos que tengan una causa distinta. Pero aquellas que recaban opiniones, etc. de personas humanas suelen dar por hecho que los datos recogidos de los sujetos muestrales son ciertos. Hoy quiero mencionar dos evidencias de lo contrario. De las que se induce que el error muestral de las encuestas podría ser una mera cota inferior que poca idea nos da de cuál podría ser la cota más interesante: la superior. ...

15 de marzo de 2022 · Carlos J. Gil Bellosta

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones. No obstante, quiero dejar claro que: ...

10 de marzo de 2022 · Carlos J. Gil Bellosta

Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva, set.seed(1) n <- 10000 sigma <- .1 x <- runif(n) # coeficientes: indep <- -1 b_0 <- .5 # variable objetivo: error <- rnorm(n, 0, sigma) y_0 <- indep + x * b_0 + error # modelo: modelo_0 <- lm(y_0 ~ x) summary(modelo_0) que da como resultado Call: lm(formula = y_0 ~ x) Residuals: Min 1Q Median 3Q Max -0.42844 -0.06697 -0.00133 0.06640 0.37449 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.001951 0.001967 -509.5 <2e-16 *** x 0.500706 0.003398 147.3 <2e-16 *** Residual standard error: 0.0989 on 9998 degrees of freedom Multiple R-squared: 0.6847, Adjusted R-squared: 0.6846 F-statistic: 2.171e+04 on 1 and 9998 DF, p-value: < 2.2e-16 Me he limitado a construir el típico conjunto de datos que cumple las condiciones de libro para poder aplicar la regresión lineal y he reconstruido los parámetros originales a través del resultado de esta: el término independiente (-1), la pendiente (.5), la desviación estándar del error (.1), etc. ...

8 de marzo de 2022 · Carlos J. Gil Bellosta

"Proxys": error y sesgo en modelos lineales

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema: Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$. La pregunta que planteé consistía en elegir entre las siguientes tres opciones: ...

2 de marzo de 2022 · Carlos J. Gil Bellosta

Usos de la versión barata de la entropía

Aquí argumenté que $$\sum_i p^2_i$$ es una versión barata de la entropía. Que sin embargo se usa para: Medir la concentración empresarial: es el que los economistas llaman índice de Hirschman. Crear el llamado número efectivo de partidos en ciencias políticas (a través de su inverso). La versión barata de la entropía tiene una ventaja y una desventaja con respecto a la buena; la ventaja, que es más fácil de calcular, comunicar, etc.; la desventaja, que no goza de sus propiedades algebraicas (que transforman la independencia en una suma). Pero esta última es bastante intrascendente para los dos fines que menciono hoy.

1 de marzo de 2022 · Carlos J. Gil Bellosta

Nuevo vídeo en YouTube: "Modelos estadísticos vs comportamiento estratégico"

En el vídeo se hace referencia a una serie de materiales. Sus coordenadas son: El hilo de Twitter donde se da cuenta de la situación actual de Zillow. El libro The People’s Republic of Walmart El artículo de Jesús Fernández Villaverde Simple Rules for a Complex World with Artificial Intelligence El libro de Paul Meehl Clinical vs statistical prediction El artículo de Akerlof The_Market_for_Lemons Yo sobre el efecto “pierna rota”

28 de febrero de 2022 · Carlos J. Gil Bellosta

¿Converge Bayes demasiado rápido?

Siempre he tenido la sensación de que las posterioris convergen demasiado rápidamente. Fue, de hecho, la primera objeción que hizo el cliente hace ya muchos, muchos, años a los resultados de mi primer proyecto puramente bayesiano y desde entonces guardo la espinita clavada. Por eso me siento reivindicado por What’s wrong with Bayes, una entrada de Andrew Gelman en su blog y en la que discute una inferencia ridícula. Es la siguiente: ...

24 de febrero de 2022 · Carlos J. Gil Bellosta

Un gráfico para quitarse el sombrero

No existe un curso de idiomas que lleve por título algo así como Aprenda a decir la verdad, toda la verdad y solo la verdad en búlgaro y donde te enseñen a construir frases justas, necesarias y adheridas a la evidencia científica y nunca lo contrario. Uno aprende búlgaro y lo usa para aquello que más le convenga. Los niños, al comenzar a hablar, usan el lenguaje tanto para decir verdades como mentiras; frecuentemente, además, para manipular todavía más eficazmente a los demás. Y nadie se escandaliza. ...

22 de febrero de 2022 · Carlos J. Gil Bellosta