¿Por qué el optimizador de una red neuronal no se va al carajo (como suelen L-BFGS-B y similares)?
Vale, admito que no funciona siempre. Pero una manera de distinguir a un matemático de un ingeniero es por una casi imperceptible pausa que los primeros realizan antes de pronunciar optimización. Un matemático nunca conjuga el verbo optimizar en vano.
[Una vez, hace tiempo, movido por una mezcla de paternalismo y maldad, delegué un subproblema que incluía el fatídico optim
de R en una ingeniera. Aún le debe doler el asunto.]
Buscar el mínimo de una función de 4 o 5 parámetros es el mayor enemigo de tu vida social. Sin embargo, ¿por qué no parece ser tal el caso con las redes neuronales?
Frente a la cuestión
Why the type of non-convex optimization that needs to be done when training deep neural nets seems to work reliably?
Yan LeCun respondió
It’s hard to build a box [meaning: a local minimum] in 100 million dimensions.
Es una hipótesis. No hay demostración. Pero tal vez por ahí vayan los tiros.