Mala Ciencia

Unas notas sobre la sorprendente y contumaz persistencia histórica de las regresiones logísticas a trozos

Hace unos días publiqué una pequeña cita de Frank Harrell:

Las relaciones entre las variables casi nunca son lineales […]. Muchos de los que no han estudiado en profundidad los problemas del sesgo y la eficiencia creen que la presencia de relaciones no lineales se remedia tramificando las variables continuas en intervalos. Es lo más desastroso que pudiere hacerse.

Resulta que trabajo ahora en un sector que, un poco como todos, está enredado en lo que Yudkowsky llama un equilibrio inadecuado. De hecho, escribió un libro al respecto cuyo título completo es Equilibrios inadecuados: dónde y cómo las civilizaciones se quedan atrapadas. Estos equilibrios inadecuados adquieren formas distintas en sectores distintos y alguna vez me he ocupado en estas páginas de los que he sufrido en, p.e., la epidemiología.

El mecanismo autocorrector de la ciencia (y el papel del cotilleo)

No sé mucho de filosofía de la ciencia, pero sí de informática. Así que, en cierto modo, soy como aquel tonto del martillo. Pero tal vez la analogía que presento debajo pueda servirle a alguien.

Existe un tipo de bases de datos distribuidas llamadas eventualmente consistentes. La promesa que hacen es que si cambias un dato, al cabo de un periodo de tiempo indeterminado, todas sus réplicas convergirán al mismo valor. En tanto, lecturas de nodos distintos pueden dar resultado distintos y contradictorios. Por ejemplo, los likes de una red social pueden estar almacenados en una de tales bases de datos y puede que un usuario en Tokio vea 34 likes a un vídeo y otro en Madrid, 35. Al cabo de un tiempo ambos acabarán viendo 35 (o, puede que 37 y 36: nada está garantizado al 100%).

Unas cuantas notas sobre ciencia de la mala

Cuando escribo sobre mala ciencia, es un clásico incluir artículos de Radiando, como ¿Cuánta radiación recibimos del 5G? Soy particularmente sensible al tema porque mi exvecino del sexto, un tal Bardasano, fue uno de los más prominentes defensores del “el móvil nos va a freír los sesos a todos” del reino. Se lo puede leer en acción en artículos como este.

Hablé aquí, hace ya casi dos años, de un estudio con 37 sujetos a los que —presuntamente, como se estila en la España constitucional— se les encogía el cerebro. Compartía aquella entrada etiqueta con esta: la de mala ciencia. Ahora, The Economist nos cuenta de manera no irónica How becoming a father shrinks your cerebrum glosando aquel mismo estudio. Tengo el indicador de Gell-Mann aceleradísimo.

Un patrón habitual del uso de la estadística en determinadas aplicaciones de las llamadas ciencias sociales

Existen asuntos sobre los que uno lee que se parecen a la situación que describo a continuación:

  • Estamos en Zaragoza y caminamos 1 km en dirección noreste.
  • Estudiamos si nos hemos alejado de manera estadísticamente significativa de Madrid.
  • Unos dicen que sí; otros, que no. Al fin y al cabo, ¿dónde está Madrid? Hay cierta incertidumbre (¿Sol? ¿Límite del municipio? ¿Puerta de Alcalá?) con una variabilidad mayor que el kilómetro recorrido.
  • Todo el mundo arrima el ascua a su sardina y, al final, nadie sabe nada.

Uno puede así caminar un kilómetro, luego otro, y luego otro más sin que ninguna caminata sea estadísticamente significativa. Puede uno plantarse finalmente en Barcelona sin haberse alejado jamás significativamente de Madrid.

Una serie de notas sobre el siempre fértil campo de la mala ciencia

¿Pero qué pasa cuando alguien descubre un error en un artículo ya publicado? Sucede todo el tiempo, pero los artículos casi nunca se retiran o corrigen. Nadie hace mucho aspaviento porque, de nuevo, [los autores] son colegas. ¿Por qué crearse enemigos? Incluso si publican un resultado que corrige luego los errores del primer artículo, la gente tiende a medir tanto sus palabras que la crítica es apenas perceptible.

Sobre la construcción de problemas sociales (y el papel de la estadística en el proceso)

El otro día estaba oyendo la radio. Además, una emisora inhabitual (para mí, aunque me consta que es popular en algunos círculos) que, diríase, se había sintonizado sola. En el programa en cuestión, la locutora y sus adláteres estaban tratando de construir yet another problema social. Pero tan mal que, por si me leen, he escrito cómo hacerlo mejor. Y también porque quien lea de la mitad para abajo descubrirá aspectos de la cosa que entroncan con el asunto general de estas páginas, la estadística.

Modelos gratuitos en OpenRouter y algunos asuntos más

Las dos noticias del siglo de la semana en el mundo de los LLMs:

Aquí, The Economist argumenta que los LLMs no nos igualarán sino lo contrario, que contribuirá a separar aún más el desempeño socioeconómico de los individuos en función de sus capacidades cognitivas (separate the best from the rest, en su formulación original).

Exigencias aisladas de rigor (estadístico)

I.

Puede que alguien no conozca todavía el concepto de exigencias aisladas de rigor (estadístico). Lo introdujo y describió Scott Alexander aquí.

Usufructo y resumo el ejemplo con el que lo introduce:

  1. Heráclito decía aquello de que uno no puede bañarse dos veces en el mismo río (porque el agua ya no es la misma, etc.)
  2. Heráclito tenía unas vacas.
  3. Un señor se las roba.
  4. Heráclito las reclama.
  5. El señor le dice que las vacas que eran suyas (de Heráclito) ya no existen; que las que dizque ha robado eran otras distintas que andaban solas por ahí, que las encontró y se las llevó a su casa.

No sabemos hasta dónde pudo llegar el rigor filosófico y la coherencia de Heráclito. La fabulilla anterior da a entender que, probablemente, no demasiado lejos.

(Estadística y fraude electoral) vs (fraude electoral y fraude estadístico)

Hay un blog que conoció mejores tiempos, lleva varios años en caída libre y estoy por quitar de mi lista de RSS: NadaEsgratis. Para aprender de lo que trata hay mejores sitios. Y de lo único que informa, el lastimoso estado de la disciplina en cuestión en España, es agua sobre mojado.

Pero de vez en cuando inspira entradas. Por ejemplo, Estadística y fraude electoral: lo que el teorema central del límite nos revela acerca del régimen de Putin, de Manuel Bagues.

Sobre lo de Ariely, Gino, etc.

I.

Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores:

  • Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales.
  • Tiene mucho interés estadístico, es material docente de primera.
  • Y, sobre todo, ¡es tan ameno!

II.

En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.