Sobre la sistemática infraestimación del error en las encuestas

Las encuestas que se publican suelen estar acompañadas de una ficha técnica en la que, entre otras cosas, se especifica el error muestral. El error muestral está relacionado con la posibilidad de que la muestra no represente fidedignamente la población de interés, que tenga un sesgo producto exclusivamente del azar. Es decir, ignora el resto de los posibles sesgos que tengan una causa distinta. Pero aquellas que recaban opiniones, etc. de personas humanas suelen dar por hecho que los datos recogidos de los sujetos muestrales son ciertos. Hoy quiero mencionar dos evidencias de lo contrario. De las que se induce que el error muestral de las encuestas podría ser una mera cota inferior que poca idea nos da de cuál podría ser la cota más interesante: la superior. ...

15 de marzo de 2022 · Carlos J. Gil Bellosta

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones. No obstante, quiero dejar claro que: ...

10 de marzo de 2022 · Carlos J. Gil Bellosta

Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva, set.seed(1) n <- 10000 sigma <- .1 x <- runif(n) # coeficientes: indep <- -1 b_0 <- .5 # variable objetivo: error <- rnorm(n, 0, sigma) y_0 <- indep + x * b_0 + error # modelo: modelo_0 <- lm(y_0 ~ x) summary(modelo_0) que da como resultado Call: lm(formula = y_0 ~ x) Residuals: Min 1Q Median 3Q Max -0.42844 -0.06697 -0.00133 0.06640 0.37449 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.001951 0.001967 -509.5 <2e-16 *** x 0.500706 0.003398 147.3 <2e-16 *** Residual standard error: 0.0989 on 9998 degrees of freedom Multiple R-squared: 0.6847, Adjusted R-squared: 0.6846 F-statistic: 2.171e+04 on 1 and 9998 DF, p-value: < 2.2e-16 Me he limitado a construir el típico conjunto de datos que cumple las condiciones de libro para poder aplicar la regresión lineal y he reconstruido los parámetros originales a través del resultado de esta: el término independiente (-1), la pendiente (.5), la desviación estándar del error (.1), etc. ...

8 de marzo de 2022 · Carlos J. Gil Bellosta

"Proxys": error y sesgo en modelos lineales

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema: Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$. La pregunta que planteé consistía en elegir entre las siguientes tres opciones: ...

2 de marzo de 2022 · Carlos J. Gil Bellosta

Usos de la versión barata de la entropía

Aquí argumenté que $$\sum_i p^2_i$$ es una versión barata de la entropía. Que sin embargo se usa para: Medir la concentración empresarial: es el que los economistas llaman índice de Hirschman. Crear el llamado número efectivo de partidos en ciencias políticas (a través de su inverso). La versión barata de la entropía tiene una ventaja y una desventaja con respecto a la buena; la ventaja, que es más fácil de calcular, comunicar, etc.; la desventaja, que no goza de sus propiedades algebraicas (que transforman la independencia en una suma). Pero esta última es bastante intrascendente para los dos fines que menciono hoy.

1 de marzo de 2022 · Carlos J. Gil Bellosta

Nuevo vídeo en YouTube: "Modelos estadísticos vs comportamiento estratégico"

En el vídeo se hace referencia a una serie de materiales. Sus coordenadas son: El hilo de Twitter donde se da cuenta de la situación actual de Zillow. El libro The People’s Republic of Walmart El artículo de Jesús Fernández Villaverde Simple Rules for a Complex World with Artificial Intelligence El libro de Paul Meehl Clinical vs statistical prediction El artículo de Akerlof The_Market_for_Lemons Yo sobre el efecto “pierna rota”

28 de febrero de 2022 · Carlos J. Gil Bellosta

¿Converge Bayes demasiado rápido?

Siempre he tenido la sensación de que las posterioris convergen demasiado rápidamente. Fue, de hecho, la primera objeción que hizo el cliente hace ya muchos, muchos, años a los resultados de mi primer proyecto puramente bayesiano y desde entonces guardo la espinita clavada. Por eso me siento reivindicado por What’s wrong with Bayes, una entrada de Andrew Gelman en su blog y en la que discute una inferencia ridícula. Es la siguiente: ...

24 de febrero de 2022 · Carlos J. Gil Bellosta

Un gráfico para quitarse el sombrero

No existe un curso de idiomas que lleve por título algo así como Aprenda a decir la verdad, toda la verdad y solo la verdad en búlgaro y donde te enseñen a construir frases justas, necesarias y adheridas a la evidencia científica y nunca lo contrario. Uno aprende búlgaro y lo usa para aquello que más le convenga. Los niños, al comenzar a hablar, usan el lenguaje tanto para decir verdades como mentiras; frecuentemente, además, para manipular todavía más eficazmente a los demás. Y nadie se escandaliza. ...

22 de febrero de 2022 · Carlos J. Gil Bellosta

Exámenes probabilísticos

I. Es habitual tener dos modelos $m_1$ y $m_2$ y querer compararlos. Supongamos que son modelos de clasificación binaria —aunque nada de lo que sigue cambia realmente si son de clasificación categórica en un sentido más amplio—; vamos a suponer también que son modelos probabilísticos, en el sentido de que no producen directamente una predicción sino una probabilidad que puede luego convertirse en una predicción de acuerdo con cierta regla (p.e., predecir la categoría más probable). ...

17 de febrero de 2022 · Carlos J. Gil Bellosta

Otra correlación del siglo XXI

En 2011 escribí sobre la correlación del siglo XXI, un esfuerzo por crear un tipo de coeficiente de correlacion mejor. En 2018 me volví a preguntar sobre el estado de la cosa y a dónde había conducido. Tengo la sensación de que se publicó y, realmente, nunca más se supo del asunto. Casi diez años después tenemos A New Coefficient of Correlation, sin duda mucho mejor que sus antecesores y con un futuro igualmente prometedor. El lector interesado puede aprender más sobre él aquí. ...

15 de febrero de 2022 · Carlos J. Gil Bellosta