Cinco asuntos breves sobre modelización estadística
Hoy, cinco breves comentarios sobre dos temas distintos relacionados con la modelización estadística. Sobre el primero, técnicas alternativas de modelización, tres enlaces:
- What is elastic weight consolidation?, una técnica para afinar el entrenamiento de modelos profundos. Imagínese que a un LLM ya existente le queremos enseñar, por ejemplo, legislación penal española. En tanto que lo reentrenamos con el código penal, no queremos que olvide todo lo demás que aprendió penosamente. Una ténica que se emplea es la llamada elastic weight consolidation, donde, como en elastic-net, se penaliza el que los pesos se desvíen de un valor de referencia. En elastic-net, ese valor de referencia es el cero. En elastic weight consolidation, son los pesos del modelo inicial. Porque queremos pesos, obviamente, distintos de los iniciales pero no demasiado lejos de ellos. (Queda como eljercicio para el lector la reinterpretación bayesiana del párrafo precedente).
- Universal estimation with Maximum Mean Discrepancy (MMD) habla de cómo se puede usar MMD como función de pérdida al ajustar modelos. El MMD es el método de los momentos de toda la vida, pero a lo bestia, es decir, aproximándolos todos ellos a la vez. Se puede ver una aplicación —ya obsoleta por las nuevas IA generadoras de imágenes— aquí.
- No tengo ninguna opinión particular sobre el uso de números complejos en el suavizado exponencial. No tengo claro qué se gana (¿algún grado de libertad?), pero dejo constancia de que alguien, en algún lugar, parece estar usándolo.
El segundo, sobre dos aspectos importantes de la modelización estadística:
- El primero, este, en el que Frank Harrell abunda sobre uno de esos temas que suelen olvidarse tan frecuentemente: que los efectos suelen ser —desafortunadamente para quienes buscan respuestas sencillas— heterogéneos.
- El segundo, sobre cómo las pruebas más simples, como las pruebas A/B, pueden entenderse como aproximaciones demasiado simples a modelos más ricos y de los que se puede extraer más información. Lo habitual es tratarlos como versiones simplificadas de modelos lineales, pero aquí se explora un caso en el que el modelo amplio es un modelo de supervivencia.