Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva, set.seed(1) n <- 10000 sigma <- .1 x <- runif(n) # coeficientes: indep <- -1 b_0 <- .5 # variable objetivo: error <- rnorm(n, 0, sigma) y_0 <- indep + x * b_0 + error # modelo: modelo_0 <- lm(y_0 ~ x) summary(modelo_0) que da como resultado Call: lm(formula = y_0 ~ x) Residuals: Min 1Q Median 3Q Max -0.42844 -0.06697 -0.00133 0.06640 0.37449 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.001951 0.001967 -509.5 <2e-16 *** x 0.500706 0.003398 147.3 <2e-16 *** Residual standard error: 0.0989 on 9998 degrees of freedom Multiple R-squared: 0.6847, Adjusted R-squared: 0.6846 F-statistic: 2.171e+04 on 1 and 9998 DF, p-value: < 2.2e-16 Me he limitado a construir el típico conjunto de datos que cumple las condiciones de libro para poder aplicar la regresión lineal y he reconstruido los parámetros originales a través del resultado de esta: el término independiente (-1), la pendiente (.5), la desviación estándar del error (.1), etc. ...

8 de marzo de 2022 · Carlos J. Gil Bellosta

"Proxys": error y sesgo en modelos lineales

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema: Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$. La pregunta que planteé consistía en elegir entre las siguientes tres opciones: ...

2 de marzo de 2022 · Carlos J. Gil Bellosta

Usos de la versión barata de la entropía

Aquí argumenté que $$\sum_i p^2_i$$ es una versión barata de la entropía. Que sin embargo se usa para: Medir la concentración empresarial: es el que los economistas llaman índice de Hirschman. Crear el llamado número efectivo de partidos en ciencias políticas (a través de su inverso). La versión barata de la entropía tiene una ventaja y una desventaja con respecto a la buena; la ventaja, que es más fácil de calcular, comunicar, etc.; la desventaja, que no goza de sus propiedades algebraicas (que transforman la independencia en una suma). Pero esta última es bastante intrascendente para los dos fines que menciono hoy.

1 de marzo de 2022 · Carlos J. Gil Bellosta

Nuevo vídeo en YouTube: "Modelos estadísticos vs comportamiento estratégico"

En el vídeo se hace referencia a una serie de materiales. Sus coordenadas son: El hilo de Twitter donde se da cuenta de la situación actual de Zillow. El libro The People’s Republic of Walmart El artículo de Jesús Fernández Villaverde Simple Rules for a Complex World with Artificial Intelligence El libro de Paul Meehl Clinical vs statistical prediction El artículo de Akerlof The_Market_for_Lemons Yo sobre el efecto “pierna rota”

28 de febrero de 2022 · Carlos J. Gil Bellosta

¿Converge Bayes demasiado rápido?

Siempre he tenido la sensación de que las posterioris convergen demasiado rápidamente. Fue, de hecho, la primera objeción que hizo el cliente hace ya muchos, muchos, años a los resultados de mi primer proyecto puramente bayesiano y desde entonces guardo la espinita clavada. Por eso me siento reivindicado por What’s wrong with Bayes, una entrada de Andrew Gelman en su blog y en la que discute una inferencia ridícula. Es la siguiente: ...

24 de febrero de 2022 · Carlos J. Gil Bellosta

Un gráfico para quitarse el sombrero

No existe un curso de idiomas que lleve por título algo así como Aprenda a decir la verdad, toda la verdad y solo la verdad en búlgaro y donde te enseñen a construir frases justas, necesarias y adheridas a la evidencia científica y nunca lo contrario. Uno aprende búlgaro y lo usa para aquello que más le convenga. Los niños, al comenzar a hablar, usan el lenguaje tanto para decir verdades como mentiras; frecuentemente, además, para manipular todavía más eficazmente a los demás. Y nadie se escandaliza. ...

22 de febrero de 2022 · Carlos J. Gil Bellosta

Exámenes probabilísticos

I. Es habitual tener dos modelos $m_1$ y $m_2$ y querer compararlos. Supongamos que son modelos de clasificación binaria —aunque nada de lo que sigue cambia realmente si son de clasificación categórica en un sentido más amplio—; vamos a suponer también que son modelos probabilísticos, en el sentido de que no producen directamente una predicción sino una probabilidad que puede luego convertirse en una predicción de acuerdo con cierta regla (p.e., predecir la categoría más probable). ...

17 de febrero de 2022 · Carlos J. Gil Bellosta

Otra correlación del siglo XXI

En 2011 escribí sobre la correlación del siglo XXI, un esfuerzo por crear un tipo de coeficiente de correlacion mejor. En 2018 me volví a preguntar sobre el estado de la cosa y a dónde había conducido. Tengo la sensación de que se publicó y, realmente, nunca más se supo del asunto. Casi diez años después tenemos A New Coefficient of Correlation, sin duda mucho mejor que sus antecesores y con un futuro igualmente prometedor. El lector interesado puede aprender más sobre él aquí. ...

15 de febrero de 2022 · Carlos J. Gil Bellosta

El sesgo de supervivencia: más allá del manido avión de la IIGM

Todos tenemos una serie de neuronas en la cabeza que se chutan de dopamina cuando oyen “sesgo de supervivencia” y proyectan en nuestra imaginación. Pero existen alternativas. La primera es la que describe Émile-Auguste Chartier en su obra Propos d’un Normand 1906-1914 de 1908 cuando habla de cómo se diseñan las canoas polinesias: Tout bateau est copié sur un autre batea… Raisonnons là-dessus à la manière de Darwin. Il est clair qu’un bateau très mal fait s’en ira par le fond après une ou deux campagnes, et ainsi ne sera jamais copié… On peut donc dire, en toute rigueur, que c’est la mer elle-même qui façonne les bateaux, choisit ceux qui conviennent et détruit les autres. ...

10 de febrero de 2022 · Carlos J. Gil Bellosta

El efecto "pierna rota"

Esa entrada tiene que ver con dos cosas. Una, la que escribí hace un tiempo sobre el análisis de modelos a la vista de información que nosotros tenemos y ellos, por lo que sea, no. La segunda, que es además la que da nombre a esta, un fenómeno que menciona Paul Meehl en su libro Clinical Versus Statistical Prediction. El libro describe y las compara predicciones clínicas (subjetivas, basadas en la experiencia y usando como datos dossieres más o menos extensos) y las estadísticas, basadas en puntuaciones (o scores) construidos a partir de en unas cuantas variables. El tema central del libro (¡de los años 50!) es cómo esos modelos estadísticos que apenas usan unos cuantas variables funcionan generalmente tan bien o mejor que las predicciones clínicas. Lo hace, además, a través de un metaanálisis de la literatura existente en la época (y actualizado algunas décadas después por el autor sobre una base evidentemente mucho más amplia de estudios). ...

8 de febrero de 2022 · Carlos J. Gil Bellosta