Generalización

Estadística: lo general y lo particular

No hay que perder de vista la etimología de la palabra estadística: viene de estado. La estadística es particularmente útil si eres el ministro de algo. Pero los más no lo somos. Los más nos enfrentamos a problemas como los que describo a continuación.

1.

Cito de Gelman:

Hay un conflicto entre dos principios de la medicina basada en evidencia: (1) la dependencia de estimaciones estadísticamente significativas de ensayos controlados y (2) la toma de decisiones para pacientes individuales. No hay forma de llegar al paso 2 sin ir más allá del paso 1.

Los modelos bayesianos, ¿condenados a sobreajustar?

Por ese micromundo en el que muevo, circuló recientemente una polémica sobre si los métodos bayesianos sobreajustan necesaria e irremisiblemente. El desencadenante fue la publicación Bayes is guaranteed to overfit, for any model, any prior, and every data point en la que el autor sostiene que, efectivamente:

  • Tiene sentido hablar de sobreajuste en modelos bayesianos (a diferencia de lo que sostienen otros en tanto que como los modelos bayesianos no maximizan ninguna función objetivo, no ha lugar siquiera hablar de sobreajuste).
  • Y que, efectivamente, sobreajustan.

También reconoce, y eso hay que abonárselo, que otros métodos (MLE en particular) sobreajustan aún más.

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.