Sobre el artículo de Domingos
Leí el otro día A Few Useful Things to Know about Machine Learning de Pedro Domingos, que me dejó ojiplático. Os cuento por qué.
El artículo yuxtapone una serie de temas (debidamente organizados en secciones independientes) tales como:
- Lo que cuenta es la generalización
- Que, por eso, los datos no son suficientes y hacen falta modelos testables
- Que el overfitting es un problema serio
- Que en dimensiones elevadas pasan cosas raras
- Que hay que tener cuidado con la teoría (en particular, los resultados asintóticos)
- Que hay que elegir muy bien las variables (las llama features) de los modelos
- Que es bueno combinar modelos
- Que la correlación no implica causalidad
- Etc.
Cosas todas, como se puede apreciar, muy razonables. Por lo que el artículo no habría estado mal hace treinta o cuarenta años. Pero, desafortunadamente, es del 2012.
A estas alturas del siglo creo que ya va siendo hora de que quienes llegan al mundo del análisis de datos desde disciplinas tales como la ingeniería o la informática vayan abandonando esa jerga hermética de features (y feature engineering), learning, representation, etc. Existe una nomenclatura bien establecida para esas cosas, anterior a los balbuceos mismos de lo que salió de los perceptrones.
Y no es solo una cuestión de nomenclatura. Es más profundo. Es una cuestión de integración de esos recetarios y consejillos en una teoría coherente. En ese sentido, merece la pena releer The Elements of Statistical Learning no tanto para sumergirse hasta los últimos y más exóticos detalles de cada fórmula sino aprehender ese marco teórico que unifica técnicas dispares. Ese marco en el que, por ejemplo, técnicas tan dispares como la regresión por minímos cuadrados y los k-vecinos son los extremos de un abanico de opciones posibles que resuelven la tensión entre localidad y generalidad, sesgo y varianza, parsimonia y prolijidad, etc.