Mala Ciencia

Modelos gratuitos en OpenRouter y algunos asuntos más

Las dos noticias del siglo de la semana en el mundo de los LLMs:

Aquí, The Economist argumenta que los LLMs no nos igualarán sino lo contrario, que contribuirá a separar aún más el desempeño socioeconómico de los individuos en función de su capacidades cognitivas (separate the best from the rest, en su formulación original).

Exigencias aisladas de rigor (estadístico)

I.

Puede que alguien no conozca todavía el concepto de exigencias aisladas de rigor (estadístico). Lo introdujo y describió Scott Alexander aquí.

Usufructo y resumo el ejemplo con el que lo introduce:

  1. Heráclito decía aquello de que uno no puede bañarse dos veces en el mismo río (porque el agua ya no es la misma, etc.)
  2. Heráclito tenía unas vacas.
  3. Un señor se las roba.
  4. Heráclito las reclama.
  5. El señor le dice que las vacas que eran suyas (de Heráclito) ya no existen; que las que dizque ha robado eran otras distintas que andaban solas por ahí, que las encontró y se las llevó a su casa.

No sabemos hasta dónde pudo llegar el rigor filosófico y la coherencia de Heráclito. La fabulilla anterior da a entender que, probablemente, no demasiado lejos.

(Estadística y fraude electoral) vs (fraude electoral y fraude estadístico)

Hay un blog que conoció mejores tiempos, lleva varios años en caída libre y estoy por quitar de mi lista de RSS: NadaEsgratis. Para aprender de lo que trata hay mejores sitios. Y de lo único que informa, el lastimoso estado de la disciplina en cuestión en España, es agua sobre mojado.

Pero de vez en cuando inspira entradas. Por ejemplo, Estadística y fraude electoral: lo que el teorema central del límite nos revela acerca del régimen de Putin, de Manuel Bagues.

Sobre lo de Ariely, Gino, etc.

I.

Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores:

  • Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales.
  • Tiene mucho interés estadístico, es material docente de primera.
  • Y, sobre todo, ¡es tan ameno!

II.

En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.

¿Se encoge el cerebro de los hombres cuando tienen un su primer crío?

Si uno atiende a lo que dicen los medios, diríase que sí. El runrún mediático está motivado por la publicación del estudio First-time fathers show longitudinal gray matter cortical volume reductions: evidence from two international samples al que no tengo acceso ni siquiera oblicuamente (i.e., vía Sci-Hub), pero cuyo resumen traduce ChatGPT así:

Las evidencias emergentes señalan la transición a la paternidad como una ventana crítica para la plasticidad neural en adultos. Estudiar a los padres brinda una oportunidad única para explorar cómo la experiencia de la paternidad puede dar forma al cerebro humano cuando el embarazo no se experimenta directamente. Sin embargo, muy pocos estudios han examinado las adaptaciones neuroanatómicas de los hombres que pasan a la paternidad. El presente estudio informa sobre una colaboración internacional entre dos laboratorios, uno en España y otro en California (Estados Unidos), que han recopilado prospectivamente datos de neuroimagen estructural en 20 futuros padres antes y después del nacimiento de su primer hijo. La muestra española también incluyó un grupo de control de 17 hombres sin hijos. Probamos si la transición a la paternidad implicaba cambios anatómicos en el volumen, grosor y área cortical cerebral, y en los volúmenes subcorticales. Encontramos tendencias superpuestas de reducción del volumen cortical dentro de la red de modo predeterminado y las redes visuales, y la preservación de las estructuras subcorticales en ambas muestras de padres primerizos, lo cual persistió después de controlar la edad de los padres y los niños en la exploración postnatal. Este estudio proporciona evidencia convergente de cambios estructurales corticales en los padres, respaldando la posibilidad de que la transición a la paternidad pueda representar una ventana significativa de plasticidad neuroestructural inducida por la experiencia en los hombres.

El impacto de la contaminación de los diésel: dos perspectivas sobre el "Volkswagen affaire"

Creo que todo el mundo sabe a qué me refiero con lo del affaire Volkswagen: en 2015 se supo que algunos modelos de ese fabricante contaban con dispositivos que cambiaban el régimen del motor precisamente cuando se realizaban pruebas y medidas de emisiones —la ITV, para entendernos— y las restablecían a sus valores originales al terminarse estas.

Se trata de dispositivo ingenioso. En el fondo, es un sistema que es capaz de distinguir el régimen de funcionamiento normal del vehículo en la calle y el anormal que se produce cuando, parece ser, circula sobre los rodillos con los que se realizan las pruebas en los talleres habilitados. Cuando detecta el rodillo, modifica los parámetros de funcionamiento del motor para optimizar las emisiones; cuando no, utiliza un régimen distinto que prima el rendimiento. En uno de los enlaces que mostraré a continuación se ofrecen más detalles sobre estas pruebas.

¿Por qué no funcionan las intervenciones buenistas?

El otro día, en mi entrada sobre la estadística en las ciencias blandengues, me cité el ensayo Nothing Scales del que extraje el parrafito

But trying to analyze this is very rare, which is a disaster for social science research. Good empirical social science almost always focuses on estimating a causal relationship: what is β in Y = α + βX + ϵ? But these relationships are all over the place: there is no underlying β to be estimated! Let’s ignore nonlinearity for a second, and say we are happy with the best linear approximation to the underlying function. The right answer here still potentially differs for every person, and at every point in time.* Your estimate is just some weighted average of a bunch of unit-specific βs, even if you avoid randomized experiments and run some other causal inference approach on the entire population.

Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva,

set.seed(1)
n <- 10000
sigma <- .1
x <- runif(n)
# coeficientes:
indep <- -1
b_0 <- .5
# variable objetivo:
error <- rnorm(n, 0, sigma)
y_0 <- indep + x * b_0 + error
# modelo:
modelo_0 <- lm(y_0 ~ x)
summary(modelo_0)

que da como resultado

Call:
lm(formula = y_0 ~ x)

Residuals:
     Min       1Q   Median       3Q      Max
-0.42844 -0.06697 -0.00133  0.06640  0.37449

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.001951   0.001967  -509.5   <2e-16 ***
x            0.500706   0.003398   147.3   <2e-16 ***

Residual standard error: 0.0989 on 9998 degrees of freedom
Multiple R-squared:  0.6847,	Adjusted R-squared:  0.6846
F-statistic: 2.171e+04 on 1 and 9998 DF,  p-value: < 2.2e-16

Me he limitado a construir el típico conjunto de datos que cumple las condiciones de libro para poder aplicar la regresión lineal y he reconstruido los parámetros originales a través del resultado de esta: el término independiente (-1), la pendiente (.5), la desviación estándar del error (.1), etc.

Cournot sobre el "efecto Roseto", 120 años antes de tal

Esta entrada abunda sobre una de la semana pasada sobre el llamado efecto Roseto. El Cournot al que alude el titulo es el Cournot famoso (1801-1877) al que, a pesar de ser más conocido por sus aportaciones a la economía, debemos una Exposition de la théorie des chances et des probabilités de 1843.

En su párrafo 114 critica explícitamente el tipo de conclusiones a las que llegan los descuidados exégetas del asunto Roseto y que Stigler comenta así:

¿Viven más los ganadores de los Óscars (que otros actores no premiados)?

La respuesta es sí. Al menos, si haces caso a las principales cuñadofuentes que puedes encontrar buscando en Google sobre el asunto o el cuñadolibro que critiqué el otro día (y que, dicho sea de paso, ilustra el nivel de los sujetos a los que encomendamos la educación de las futuras generaciones patrias).

Pero la respuesta es no. Un estudio de esas características tiene un serio riesgo de selección efectivamente, para ganar un Óscar tienes que haber sobrevivido lo suficiente que el primer y descuidado estudio sobre el asunto no tuvo la precaución de corregir.