Esta entrada no tiene título porque no se me ocurre ninguno sin "spoilers"

Esta entrada principia con el siguiente gráfico:

Queda a la discreción del lector si la línea tiene algún tipo de tendencia más o menos clara.

Una vez completado el ejercicio, le indicaré que:

  • El eje horizontal es la cuota de mercado (con perdón) de la educación pública (preuniversitaria) por CCAA en España extraída del informe Datos y Cifras correspondiente al curso escolar 2021-2022 publicados por el ministerio de educación (y el enlace, que seguro que dura poco, es este).
  • El vertical, la diferencia bruta en puntos en la prueba de matemáticas de PISA de vaya uno a saber qué año según se muestran aquí.

¿Por qué es la tendencia de este gráfico relevante? Porque, según A. Tabarrok, el autor de Private Education in India: A Novel Test of Cream Skimming, ayuda a determinar en qué medida la educación privada aporta valor añadido real más allá de, simplemente, operar sobre mejor materia prima. Según sus propias palabras (con mi traducción):

Funciones de enlace "por defecto" en (ciertos) GLMs

Después de publicar Una regresión de Poisson casi trivial con numpyro me riñeron por usar la identidad como función de enlace en la regresión de Poisson. Es decir, por especificarlo como

$$\lambda_t = a + b t$$

en lugar del estándar

$$\lambda_t = \exp(a + b t).$$

Hay varias cosas bastante bien conocidas y una que lo es bastante menos —y que resulta mucho más paradójica— que decir al respecto.

Antes necesito añadir que:

Una regresión de Poisson casi trivial con numpyro

El otro día hubo, parece, cierto interés por modelar la siguiente serie histórica de datos:

Notas al respecto:

  1. El eje horizontal representa años, pero da igual cuáles.
  2. El eje vertical son números naturales, conteos de cosas, cuya naturaleza es poco relevante aquí, más allá de que se trata de eventos independientes.
  3. Se especulaba con un posible cambio de tendencia debido a una intervención ocurrida en alguno de los años centrales de la serie.

Lo que se ve es el resultado del ajuste de un modelo de Poisson casi trivial. Es casi trivial porque utiliza el tipo más simple de splines para modelar una tendencia quebrada en un punto desconocido, uno de los parámetros del modelo.

Autoencoders: una serie de lecciones aprendidas

Estos días pasados he tenido que usar autoencoders como mecanismos para reducir la dimensión de una serie de conjuntos de datos. El principal problema al que me he enfrentado —cómo no— ha sido el de diseñar una arquitectura adecuada para el problema en cuestión. El principal motivo es que la práctica totalidad de los tutoriales, ejemplos, etc. disponibles por ahí tienen como aplicación principal el tratamiento de imágenes y en mi caso no.

Otra forma de llegar a la distribución normal

¿Cómo llegamos a la distribución normal? Típicamente, por aplicación —implícita, explícita, rutinaria o litúrgica— del teorema central del límite: una variable aleatoria es normal porque la creemos consecuencia de pequeñas perturbaciones independientes.

Pero hay otra vía.

Supongamos que tenemos tres —o, para el caso, $n > 1$— variables aleatorias continuas independientes con la misma distribución. Su densidad, por tanto, puede factorizarse así:

$$f(x_1, x_2, x_3) = f(x_1) f(x_2) f(x_3).$$

Supongamos además que $f(x_1, x_2, x_3)$ depende solo de $x_1^2 + x_2^2 + x_3^2$, la distancia al origen. De otro modo, que

"Denoising diffusion" en una dimensión (entre otras simplificaciones)

I. Motivación e introducción

Denoising diffusion —DD en lo que sigue— es uno de los principales ingredientes del archipopular stable diffusion. Es un algoritmo que se usa fundamentalmente para generar imágenes y que funciona, a grandes rasgos así:

  • Se parte de un catálogo de imágenes, que son vectores en un espacio (de dimensión alta).
  • Esos vectores se difuminan utilizando un proceso concreto —piénsese en una especie de movimiento Browniano— hasta que su distribución es aproximadamente una normal (en ese espacio de dimensión elevada).
  • A partir de valores aleatorios de esa distribución normal, invirtiendo el proceso de difusión, se obtienen muestras del espacio original (de las fotos).

Subyace a todo este tinglado la conocida como hipótesis de la subvariedad. Todas las fotos son, en el fondo, vectores en $R^N$ donde si las fotos son, digamos, $1000 \times 1000$, $N$ es 3M (número de píxeles por el número de canales). La hipótesis de la subvariedad dice que la distribución de las fotos que reconocemos como tales —piénsese que la mayoría de las fotos de $R^N$ no dejan de ser manchas grises— residen en una subvariedad de dimensión baja incrustada en $R^N$. Generar imágenes equivale entonces a muestrear dicha subvariedad, con el problema de que no sabemos ni qué forma tiene ni dónde está. Lo que proporciona DD es un caminito para llegar a ella desde un punto cualquiera del espacio.

Google vs Goodhart vs GPT-n vs el nuevo (y desconocido) equilibrio

Google

Supe de un nuevo buscador de internet llamado Google posiblemente en verano de 1998. Leí sobre él en una revista de informática de la biblioteca pública que aún subsiste delante del lugar donde estaba pasando las vacaciones. Escribí “G-O-O-G-L-E” en un papelito para no olvidar esa extraña secuencia de caracteres y, días más tarde, en un cibercafé, la probé por primera vez.

Supimos pronto que el nuevo buscador, mucho mejor que los entonces existentes, implementaba un nuevo algoritmo, infinitamente más eficiente que los del resto.

Variaciones de la opinión sobre fenómenos pretéritos

Los fabricantes de encuestas suelen estudiar opinión de la ciudadanía acerca de un fenómeno futuro: unas elecciones, etc. Esas opiniones suelen variar en el tiempo, dando lugar a los sesudos análisis que nos regala la prensa habitual.

Pero en alguna rara ocasión, estudian también nuestra opinión sobre fenómenos pasados y es entretenido preguntarse por los motivos de la fluctuación de los resultados.

Comienzo por un ejemplo clásico. Por si no se lee bien, el título del gráfico explica que se trata de los resultados de una encuesta realizada en Francia acerca de la nación que más contribuyó a la derrota de Alemania en 1945.

Aristóteles sobre lo probable y lo improbable (y, más concretamente, sobre la frecuencia de eventos muy improbables)

Un pasaje de un libro que no viene a cuento me puso sobre la pista de una cita de Aristóteles (Retórica, Libro II, Cap. 24), que dice así:

[…] también en los retóricos hay un entimema espurio que se basa en lo que es probable pero no en general, sino probable en determinada circunstancia. Pero ésta no será universal, como lo que dice Agatón:

Quizá alguien diría que eso mismo es probable, que a los mortales les ocurren muchas cosas improbables.

Curso en línea: "R para visualización de datos"

R

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—.

(Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)