Tests Ab

Cinco asuntos breves sobre modelización estadística

Hoy, cinco breves comentarios sobre dos temas distintos relacionados con la modelización estadística. Sobre el primero, técnicas alternativas de modelización, tres enlaces:

  1. What is elastic weight consolidation?, una técnica para afinar el entrenamiento de modelos profundos. Imagínese que a un LLM ya existente le queremos enseñar, por ejemplo, legislación penal española. En tanto que lo reentrenamos con el código penal, no queremos que olvide todo lo demás que aprendió penosamente. Una ténica que se emplea es la llamada elastic weight consolidation, donde, como en elastic-net, se penaliza el que los pesos se desvíen de un valor de referencia. En elastic-net, ese valor de referencia es el cero. En elastic weight consolidation, son los pesos del modelo inicial. Porque queremos pesos, obviamente, distintos de los iniciales pero no demasiado lejos de ellos. (Queda como eljercicio para el lector la reinterpretación bayesiana del párrafo precedente).
  2. Universal estimation with Maximum Mean Discrepancy (MMD) habla de cómo se puede usar MMD como función de pérdida al ajustar modelos. El MMD es el método de los momentos de toda la vida, pero a lo bestia, es decir, aproximándolos todos ellos a la vez. Se puede ver una aplicación —ya obsoleta por las nuevas IA generadoras de imágenes— aquí.
  3. No tengo ninguna opinión particular sobre el uso de números complejos en el suavizado exponencial. No tengo claro qué se gana (¿algún grado de libertad?), pero dejo constancia de que alguien, en algún lugar, parece estar usándolo.

El segundo, sobre dos aspectos importantes de la modelización estadística:

Reducción del error en tests A/B (y similares)

Hoy, cuatro maneras distintas de realizar un test A/B. Comienzo con unos datos simulados que tienen este aspecto:

set.seed(1)
n <- 1000
test <- c(rep(0, n/2), rep(1, n/2))
y0 <- rnorm(n)
y1 <- y0 + test + rnorm(n)

Ahí:

  • n es el número de sujetos, 1000.
  • test es un vector que indica el tratamiento: 500 en un grupo, 500 en otro.
  • y0 es el valor de/asociado a los sujetos en un periodo anterior al tratamiento.
  • y1 es el valor de los sujetos después del tratamiento. Como se puede ver, está relacionado con el tratamiento en sí y con el valor anterior. Se le ha añadido, además, cierta cantidad de ruido estadístico.

Hay varias maneras de estimar el efecto del tratamiento (o de, como dicen algunos, realizar un test A/B). Voy a mencionar cuatro.

De A/B a DiD

Un test A/B consiste en (o aspira a) estimar (y tal vez promediar) las diferencias

predict(modelo_t, x) - predict(modelo_c, x)

donde modelo_t y modelo_c son modelos construidos en grupos tratados y no tratados de cierta manera.

Entra el tiempo.

Ahora ya no se trata de medir esas diferencias sino las diferencias entre los incrementos antes y después. Que se hace construyendo cuatro modelos para con ellos obtener

(predict(modelo_td, x) - predict(modelo_ta, x)) -