Sobre "Predicción, estimación y atribución"
Subrayo hoy aquí tres cuestiones que considero importantes del reciente artículo Prediction, Estimation, and Attribution de B. Efron (para otra visión, véase esto).
La primera es que existe una cadena de valor en la modelización estadística que va del producto más ordinario, la predicción, a la estimación y de este, al más deseable, la atribución. En la terminología de Efron,
- estimación consiste en la determinación de los parámetros subyacentes (e importantes) del modelo; específicamente se refiere a la estimación puntual;
- atribución tiene que ver con intervalos de confianza, p-valores, etc. de esos parámetros.
La segunda es que la predicción es un problema fácil, mientras que la estimación (y la atribución) son mucho más complicados. Lo ilustra con un ejemplo sencillo: comparando la eficiencia de dos modelos, uno el óptimo y otro ligeramente inferior para:
- Identificar el valor $latex \mu$ de una serie de 25 muestras de una $latex N(\mu, 1)$ (el problema de estimación).
- Predecir el valor 26 de la serie.
[Spoiler: el modelo óptimo es sustancialmente mejor que el otro en el problema de estimación pero apenas superior en el de predicción.]
La tercera cuestión es la defensa que hace Efron de la importancia de los que llama problemas de superficie + ruido. Que son modelos en los que se considera explícitamente un modelo generativo en el que los valores observados son resultado de una estructura (la superfie) y un ruido añadido.
Podemos descartar esas consideraciones y tratar simplemente de predecir, efectivamente. Pero, argumenta Efron, tratar de discernir la forma de esa superficie (el problema de la estimación) genera de alguna manera un conocimiento superior, digno del calificativo de científico.