Mezclas y regularización
Cuando mezclas agua y tierra obtienes barro, una sustancia que comparte propiedades de sus ingredientes. Eso lo tenía muy claro de pequeño. Lo que en esa época me sorprendió mucho es que el agua fuese una mezcla de oxígeno e hidrógeno: ¡era muy distinta de sus componentes!
Porque no era una mezcla, obviamente. Era una combinación. En una combinación emergen propiedades inesperadas. Las mezclas, sin embargo, son más previsibles.
Pensaba en esto mientras escribía sobre la regularización de modelos (ridge, lasso y todas esas cosas). La regularización puede interpretarse como una mezcla de dos modelos: el original y el nulo (con todos los coeficientes iguales a cero). El modelo original tiene poco sesgo y mucha varianza; el nulo, prácticamente nada de varianza y muchísimo sesgo. El regularizado queda a medio camino. El original tiene varios, tal vez muchos, grados de libertad mientras que el nulo, ninguno (¿o uno?); puede considerarse que el número de grados de libertad del regularizado queda a medio camino.
Así que ridge, lasso, elastic net y otros (puedo incluir aquí a la vetusta regresión stepwise, entendida de nuevo y cometiendo un craso abuso del lenguaje como un promedio entre el modelo saturado y el nulo) son simplemente técnicas para promediar modelos. Mejores o peores, con sus ventajas y sus inconvenientes, pero modos al fin y al cabo de promediar dos extremos.
Para terminar, un pequeño ejercicio mental: ¿qué si regularizas hacia un modelo distinto del nulo? Me refiero a lo siguiente (y, por fijar ideas, utilizaré la regresión ridge): tenemos un modelo lineal con coeficientes $\beta_j$; entonces la regresión ridge es el resultado de minimizar la consabida expresión
$$ \sum_i (y_i - \beta_0 + \sum_j \beta_j x_{ij})^2 + \lambda \sum_j \beta_j^2.$$
El término de regularización, $latex \lambda \sum_j \beta_j^2$ también puede escribirse de la forma
$$ \lambda \sum_j (\beta_j - b_j)^2$$
donde los valores $latex b_j = 0$ corresponden a los coeficientes del modelo nulo. ¿Pero qué si se usa como modelo nulo otro en el que no ocurra necesariamente $latex b_j = 0$? ¿Qué si nuestra priori es un modelo no nulo? La interpretación de la regularización como mezcla de modelos seguiría en pie, pero todas las consideraciones acerca de grados de libertad, del bias/variance trade-off, etc. se caerían.
Nota final: todo lo discutido aquí es un corolario tonto de la reformulación bayesiana de la cuestión. Pero esa es otra historia.
Addenda: Véase esto donde se retoma la discusión y se llega a una conclusión muy contraintuitiva.