Un resultado contraintuitivo

[Esta entrada recoge la pregunta y la duda que motivó una conversación con Javier Nogales en Twitter hace unos días.]

Citaba (él) un resultado de Theobald de 1974 (¿tanto lleva ridge entre nosotros? ¡habría jurado que menos!) que viene a decir que siempre existe un peso $\lambda$ para el que ridge es mejor que OLS.

Ves el álgebra y piensas: verdad será.

Pero te fías de tu propia intuición y piensas: ¡vaya un resultado contraintuitivo si no contradictorio! Porque:

Ridge equivale a una regresión lineal con cierto tipo de priori informativa en 0.
OLS es la regresión lineal con una priori no informativa.
Si los coeficientes reales son distintos de cero, una priori informativa en 0 es una priori mentirosa (¿sesgada?).

En resumen, el teorema viene a decir un modelo puede mejorar si se le añade cierta dosis de información mendaz. O que es mejor cierta dosis de información, aunque sea sesgada, que no información. ¿Paradójico?

Reflexiones:

Una priori en cero aumenta el sesgo del modelo (salvo que los coeficientes sean todos cero).
Pero a la vez penaliza que los coeficientes se alejen demasiado, por lo que se reduciría su varianza potencial.

De todos modos, tal y como lo he planteado, el resultado es bien contraintuitivo.