Una regresión de Poisson casi trivial con numpyro

El otro día hubo, parece, cierto interés por modelar la siguiente serie histórica de datos:

Notas al respecto:

  1. El eje horizontal representa años, pero da igual cuáles.
  2. El eje vertical son números naturales, conteos de cosas, cuya naturaleza es poco relevante aquí, más allá de que se trata de eventos independientes.
  3. Se especulaba con un posible cambio de tendencia debido a una intervención ocurrida en alguno de los años centrales de la serie.

Lo que se ve es el resultado del ajuste de un modelo de Poisson casi trivial. Es casi trivial porque utiliza el tipo más simple de splines para modelar una tendencia quebrada en un punto desconocido, uno de los parámetros del modelo.

Autoencoders: una serie de lecciones aprendidas

Estos días pasados he tenido que usar autoencoders como mecanismos para reducir la dimensión de una serie de conjuntos de datos. El principal problema al que me he enfrentado —cómo no— ha sido el de diseñar una arquitectura adecuada para el problema en cuestión. El principal motivo es que la práctica totalidad de los tutoriales, ejemplos, etc. disponibles por ahí tienen como aplicación principal el tratamiento de imágenes y en mi caso no.

Otra forma de llegar a la distribución normal

¿Cómo llegamos a la distribución normal? Típicamente, por aplicación —implícita, explícita, rutinaria o litúrgica— del teorema central del límite: una variable aleatoria es normal porque la creemos consecuencia de pequeñas perturbaciones independientes.

Pero hay otra vía.

Supongamos que tenemos tres —o, para el caso, $n > 1$— variables aleatorias continuas independientes con la misma distribución. Su densidad, por tanto, puede factorizarse así:

$$f(x_1, x_2, x_3) = f(x_1) f(x_2) f(x_3).$$

Supongamos además que $f(x_1, x_2, x_3)$ depende solo de $x_1^2 + x_2^2 + x_3^2$, la distancia al origen. De otro modo, que

"Denoising diffusion" en una dimensión (entre otras simplificaciones)

I. Motivación e introducción

Denoising diffusion —DD en lo que sigue— es uno de los principales ingredientes del archipopular stable diffusion. Es un algoritmo que se usa fundamentalmente para generar imágenes y que funciona, a grandes rasgos así:

  • Se parte de un catálogo de imágenes, que son vectores en un espacio (de dimensión alta).
  • Esos vectores se difuminan utilizando un proceso concreto —piénsese en una especie de movimiento Browniano— hasta que su distribución es aproximadamente una normal (en ese espacio de dimensión elevada).
  • A partir de valores aleatorios de esa distribución normal, invirtiendo el proceso de difusión, se obtienen muestras del espacio original (de las fotos).

Subyace a todo este tinglado la conocida como hipótesis de la subvariedad. Todas las fotos son, en el fondo, vectores en $R^N$ donde si las fotos son, digamos, $1000 \times 1000$, $N$ es 3M (número de píxeles por el número de canales). La hipótesis de la subvariedad dice que la distribución de las fotos que reconocemos como tales —piénsese que la mayoría de las fotos de $R^N$ no dejan de ser manchas grises— residen en una subvariedad de dimensión baja incrustada en $R^N$. Generar imágenes equivale entonces a muestrear dicha subvariedad, con el problema de que no sabemos ni qué forma tiene ni dónde está. Lo que proporciona DD es un caminito para llegar a ella desde un punto cualquiera del espacio.

Google vs Goodhart vs GPT-n vs el nuevo (y desconocido) equilibrio

Google

Supe de un nuevo buscador de internet llamado Google posiblemente en verano de 1998. Leí sobre él en una revista de informática de la biblioteca pública que aún subsiste delante del lugar donde estaba pasando las vacaciones. Escribí “G-O-O-G-L-E” en un papelito para no olvidar esa extraña secuencia de caracteres y, días más tarde, en un cibercafé, la probé por primera vez.

Supimos pronto que el nuevo buscador, mucho mejor que los entonces existentes, implementaba un nuevo algoritmo, infinitamente más eficiente que los del resto.

Variaciones de la opinión sobre fenómenos pretéritos

Los fabricantes de encuestas suelen estudiar opinión de la ciudadanía acerca de un fenómeno futuro: unas elecciones, etc. Esas opiniones suelen variar en el tiempo, dando lugar a los sesudos análisis que nos regala la prensa habitual.

Pero en alguna rara ocasión, estudian también nuestra opinión sobre fenómenos pasados y es entretenido preguntarse por los motivos de la fluctuación de los resultados.

Comienzo por un ejemplo clásico. Por si no se lee bien, el título del gráfico explica que se trata de los resultados de una encuesta realizada en Francia acerca de la nación que más contribuyó a la derrota de Alemania en 1945.

Aristóteles sobre lo probable y lo improbable (y, más concretamente, sobre la frecuencia de eventos muy improbables)

Un pasaje de un libro que no viene a cuento me puso sobre la pista de una cita de Aristóteles (Retórica, Libro II, Cap. 24), que dice así:

[…] también en los retóricos hay un entimema espurio que se basa en lo que es probable pero no en general, sino probable en determinada circunstancia. Pero ésta no será universal, como lo que dice Agatón:

Quizá alguien diría que eso mismo es probable, que a los mortales les ocurren muchas cosas improbables.

Curso en línea: "R para visualización de datos"

R

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—.

(Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)

Curso en línea: "R para visualización de datos"

R

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—.

(Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)

Sobre la correlación entre Y y la predicción de Y

Supongamos que tenemos un modelo construido sobre unos datos $(x_i, y_i)$. Para cada $x_i$, el valor $y_i$ es una realización de una variable aleatoria $Y_i$ con distribución $F_i(y)$. Por simplificar, podemos suponer, además, que para el ajuste se utiliza el error cuadrático.

Entonces, lo mejor que puede hacer el modelo es encontrar la media $\mu_i$ de cada $Y_i$ —bueno, en realidad, querría encontrar $\mu_x$ para cada $x$ potencial, pero hoy vamos a dejar esa discusión aparcada—.

Significativo vs significativo

Con esta entrada voy a abundar en una literatura ya muy extensa y que muchos encontrarán ya, con razón, aburrida, sobre las diferencias entre significativo y significativo.

Véase:

En 2006, el ingreso anual bruto medio de los médicos era de 70.717 USD […] para los países con el sistema Bismark y 119.911 USD […] para los del sistema Beveridge. Las diferencias no son significativas (p=0.178).

Olé.

El párrafo está extraído de PNS89 International comparison of the remuneration of physicians among countries with bismarck and beveridge health care system y traducido por un servidor.

Raking, Introdución al

I.

Ni que decirse tiene que a partir de las probabilidades conjuntas pueden construirse las marginales: se integra (o suma) y ya.

II.

El problema inverso es irresoluble: es imposible reconstruir las conjuntas a partir de las marginales. Las conjuntas, condicionadas a las marginales, pueden tener muchos grados de libertad.

Sin embargo, a petición de los usuarios finales, los comerciales de la estadística se han comprometido históricamente a resolver ese problema de manera científica. Así que los curritos de la estadística, supongo que muy a su pesar, han tenido que desarrollar cosas como las cópulas —esas sí que son verdaderas weapons of math destruction— y el raking, que es lo que nos ocupa hoy.

Nuevo vídeo en YouTube: "Sobre chatGPT"

Aunque lo publiqué ya hace unos días, aquí llega formalmente el anuncio de mi vídeo sobre chatGPT:

Tiene una primera parte en la que hablo de cosas que hace bien, regular y mal y una segunda en la que investigo su dimensión moral.