Mmd

Cinco asuntos breves sobre modelización estadística

Hoy, cinco breves comentarios sobre dos temas distintos relacionados con la modelización estadística. Sobre el primero, técnicas alternativas de modelización, tres enlaces:

  1. What is elastic weight consolidation?, una técnica para afinar el entrenamiento de modelos profundos. Imagínese que a un LLM ya existente le queremos enseñar, por ejemplo, legislación penal española. En tanto que lo reentrenamos con el código penal, no queremos que olvide todo lo demás que aprendió penosamente. Una ténica que se emplea es la llamada elastic weight consolidation, donde, como en elastic-net, se penaliza el que los pesos se desvíen de un valor de referencia. En elastic-net, ese valor de referencia es el cero. En elastic weight consolidation, son los pesos del modelo inicial. Porque queremos pesos, obviamente, distintos de los iniciales pero no demasiado lejos de ellos. (Queda como eljercicio para el lector la reinterpretación bayesiana del párrafo precedente).
  2. Universal estimation with Maximum Mean Discrepancy (MMD) habla de cómo se puede usar MMD como función de pérdida al ajustar modelos. El MMD es el método de los momentos de toda la vida, pero a lo bestia, es decir, aproximándolos todos ellos a la vez. Se puede ver una aplicación —ya obsoleta por las nuevas IA generadoras de imágenes— aquí.
  3. No tengo ninguna opinión particular sobre el uso de números complejos en el suavizado exponencial. No tengo claro qué se gana (¿algún grado de libertad?), pero dejo constancia de que alguien, en algún lugar, parece estar usándolo.

El segundo, sobre dos aspectos importantes de la modelización estadística:

Medidas de similitud entre distribuciones

Por motivos que quedarán claros en entradas futuras, he estado investigando sobre medidas de proximidad entre distribuciones de probabilidad. En mi caso concreto, además, multidimensionales (y de dimensión alta, en $R^N$, con $N$ del orden de docenas o centenas).

Supongamos que tenemos dos variables aleatorias $X, Y \in R^N$ y queremos ver estudiar en qué medida son próximas sus distribuciones. Idealmente, además, utilizando un método que pueda utilizarse a través de muestras de dichas variables.