Tutorial de numpyro (I): modelos probabilísticos

I.

Las distintas disciplinas estudian aspectos diferentes de la realidad. Para ello crean modelos. Un modelo es una representación teórica y simplificada de un fenómeno real. Por un lado, el territorio; por el otro, el mapa.

Los físicos modelan cómo oscila un péndulo y se permiten obviar cosas como el rozamiento del aire. Los economistas, la evolución del PIB o la inflación. Los biólogos, la absorción de una determinada sustancia por un tejido. Los ingenieros, el comportamiento aerodinámico de un prototipo. Etc.

Coeficientes "no identificables": un ejemplo y sus consecuencias

Hoy voy a abundar sobre el modelo 3PL que ya traté el otro día. En particular voy a contrastar críticamente varios modelos alternativos sobre los mismos datos.

I.

El modelo que implementé (aquí) puede describirse así:

$$r_{ij} \sim \text{Bernoulli}(p_{ij})$$ $$p_{ij} = p(a_i, d_j, …)$$ $$a_i \sim N(0, 1)$$ $$d_j \sim N(0, 1)$$ $$\dots$$

donde

$$p = p(a, d, \delta, g) = g + \frac{1 - g}{1 + \exp(-\delta(a- d))}$$

y $a_i$ y $d_j$ son la habilidad del alumno $i$ y la dificultad de la pregunta $j$ respectivamente. Nótese además cómo en $f$ estas dos variables intervienen solo a través de su diferencia, $a - d$.

La energía nuclear, ¿salvará el mundo?

La energía nuclear tiene varios problemas:

  1. Seguridad
  2. Aprovisionamiento de combustible
  3. Gestión de residuos
  4. Precio
  5. Otros: relaciones públicas, etc.

La casi totalidad de la literatura seria al respecto se puede resumir en lo siguiente: cómo solucionar 1, 2 y 3 exacerbando 4.

[Luego, claro, hay otra literatura seudocientífica que viene a decir cómo 1, 2 y 3 son irresolubles por mucho que se agrave 4. Pero este es un blog serio y sin tiempo para tonterías.]

Subversión de convenciones gráficas: un ejemplo

Un gráfico estadístico —salvo error u omisión— representa fielmente los datos sobre los que se construye: podríamos programar una máquina para que recompusiera la tabla original a partir de cualquier gráfica independientemente de la estética utilizada: sean longitudes, ángulos, tonos de color, etc.

El problema es que los humanos —particularmente, pensando rápido a lo Kahneman— tendemos a fabricar connotaciones que tuercen su sentido. Estas connotaciones —como tantas otras cosas en la vida— pueden tener origen biológico o cultural. Culturales son las convenciones, como que el tiempo fluye de izquierda a derecha o que lo grande va arriba y lo pequeño, abajo.

Números aleatorios, estado interno y su relación con el paralelismo

I.

En primer lugar, no voy a hablar de números aleatorios sino seudoaleatorios. Resumiéndolo todo mucho, un generador de números seudoaleatorios (PRNG en lo que sigue) es una función que a partir de una secuencia fácilmente adivinable (p.e., 0, 1, 2,…) genera otra de números con apariencia aleatoria.

Los números de la secuencia adivinable constituirían los distintos estados del PRNG. En R, Python y otros lenguajes populares, el generador de números aleatorios hace dos cosas: generar un número aleatorio y actualizar el estado.

Un gráfico con dos lecturas muy distintas

Hoy voy a discutir el siguiente gráfico:

Está extraído del libro Order without Design: How Markets Shape Cities, de Alain Bertaud, que no recomiendo en absoluto a quienes alberguen la inamovible certeza de que los urbanistas municipales son seres justos y omniscientes y los mercados, fuerzas ciegas y malévolas que solo merecen burla, desprecio y, por encima de todo, represión. Tampoco voy a aburrir al lector con las referencias de los números que representa. Están en el libro. Me bastará advertirle que pueden haber cambiado: hacen referencia al periodo 2016-2017.

El modelo 3PL, ajustado con numpyro

Tenía ganas de meterle mano al modelo 3PL de la teoría de respuesta al ítem. Había un par de motivos para no hacerlo: que viene del mundo de la sicometría, que es un rollo macabeo, y que sirve —en primera aproximación— para evaluar evaluaciones (preguntas de examen, vamos), un asunto muy alejado de mis intereses. Pero acabaron pesando más:

  • Que se trata de un modelo generativo en el que los coeficientes tienen una función —y por tanto, interpretación— determinada y prefijada. Es decir, un modelo ad hoc construido desde primeros principios y no usando herramientas genéricas —piénsese en las anovas o similares—.
  • Que exige métodos de ajuste específicos. Por ahí usan MV vía EM.
  • Que pide a gritos una aproximación bayesiana, sobre todo a la hora de prefijar la distribución de las habilidades de los alumnos.
  • Que, finalmente, puede aplicarse fuera del estrecho ámbito de la teoría de la respuesta al ítem.
  • Y, además, que es fácilmente generalizable.

El problema en el que el modelo 3PL se propone como solución es sencillo:

Mnemo, la aplicación

Mnemo es una pequeña aplicación que he construido para ayudarme a recordar esas cosas que me consta que se me van a olvidar: palabras, conceptos simples, nombres de personas, etc. Externamente se ve como un canal (privado) de Telegram en el que un par de veces al día me aparecen notificaciones con un resumen de la cosa.

Internamente, es la combinación de tres cosas:

  • Una base de datos en Notion.
  • Un bot de Telegram.
  • Un workflow de n8n que corre en mi servidor local y que orquesta todo el proceso.

La base de datos la actualizo manualmente. Cada vez que tropiezo con algo que merece la pena ser recordado, añado un registro con información básica: un rótulo, una breve descripción, un enlace para indagar más.

Acerca de "Ver como un mercado"

Tienen que alinearse unas cuantas circunstancias poco probables para que lea sociología. Dos de las más relevantes para que metiese la nariz en Seeing Like a Market son que:

  • conocía a uno de los autores por tener un librito decente sobre visualización de datos con R y que
  • Seeing Like a State es uno de los pocos PDFs que han pasado por mi disco duro y han sobrevivido a rm.

Tienen que darse, además, circunstancias adicionales para que acabe comentándolo aquí. Un artículo de sociología se refiere a fenómenos sociales más o menos concretos y, en este caso, parte de esos fenómenos tienen que ver con cosas como la creación de modelos estadísticos, el uso de ciertas variables en ellos, su uso, ¡su intención!, sus sesgos, etc. Si uno quiere ver lo que dicen los sociólogos —aquí generalizo de forma impropia pero consciente— de nosotros, de lo que hacemos, de por qué lo hacemos, etc., que lea el artículo y lo descubrirá por sí mismo.

La paradoja de Lord, de nuevo

Escribí sobre la paradoja de Lord en 2013 y luego otra vez, tangencialmente, en 2020. Hace poco releí el artículo de Pearl sobre el tema y comoquiera que su visión sobre el asunto es muy distinta de la mía, voy a tratar de desarrollarla.

Aunque supongo que es generalizable, la llamada paradoja de Lord se formuló inicialmente al estudiar y comparar datos antes/después. En su descripción original de mediados de los 60, había niños y niñas a los que se había pesado en junio y en septiembre. El problema (y la paradoja) aparecían al tratar de modelar esa variación de peso según el sexo.

"Goals based investment" (y su relación con la modelización probabilística)

El motivo para hablar del goals based investment —GBI en lo que sigue— aquí hoy tiene que ver, como se comprobará más abajo, con su relación con la modelización probabilística, la optimización, etc. Se trata de una aproximación a la gestión de las inversiones muy de moda en la banca privada, pero que plantea problemas matemáticos y computacionales entretenidos. Y que, desde luego, no pueden resolverse —al menos, bien— con Excel.

Paralelismos entre textos vía embeddings: el caso, por poner uno, de los evangelios de Mateo y Marcos

Hace un tiempo tuve que leerlo todo sobre cierto tema. Entre otras cosas, cinco libros bastante parecidos entre sí. Era una continua sensación de déjà vu: el capitulo 5 de uno de ellos era casi como el tres de otro, etc. Pensé que podría ser útil —y hacerme perder menos tiempo— poder observar el solapamiento en bloques —sígase leyendo para entender mejor el significado de lo que pretendía—.

En esta entrada voy a mostrar el resultado de mis ensayos sobre unos textos distintos. Los que me interesaban originalmente estaban en PDF y hacer un análisis más o menos riguroso exigía mucho trabajo de limpieza previo. Pensando en otros textos distintos que vienen a contar la misma historia se me ocurrió utilizar dos de los evangelios sinópticos (en particular, los de Mateo y Marcos).