Un resultado contraintuitivo
[Esta entrada recoge la pregunta y la duda que motivó una conversación con Javier Nogales en Twitter hace unos días.]
Citaba (él) un resultado de Theobald de 1974 (¿tanto lleva ridge entre nosotros? ¡habría jurado que menos!) que viene a decir que siempre existe un peso $latex \lambda$ para el que ridge es mejor que OLS.
Ves el álgebra y piensas: verdad será.
Pero te fías de tu propia intuición y piensas: ¡vaya un resultado contraintuitivo si no contradictorio! Porque:
- Ridge equivale a una regresión lineal cierto tipo de priori informativa en 0.
- OLS es la regresión lineal con una priori no informativa.
- Si los coeficientes reales son distintos de cero, una priori informativa en 0 es una priori mentirosa (¿sesgada?).
En resumen, el teorema viene a decir un modelo puede mejorar si se le añade cierta dosis de información mendaz. O que es mejor cierta dosis de información, aunque sea sesgada, que no información. ¿Paradójico?
Reflexiones:
- Una priori en cero aumenta el sesgo del modelo (salvo que los coeficientes sean todos cero).
- Pero a la vez penaliza que los coeficientes se alejen demasiado, por lo que se reduciría su varianza potencial.
De todos modos modos, tal y como lo he planteado, el resultado es bien contraintuitivo.