Sobre el modelo beta-binomial con "deriva"
Planteamiento del problema
El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.
Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: ¿los datos de hace tres años, siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?
Efectivamente, si $N$ es el número total de tiradas, es resabido que la precisión de la estimación crece con $N$. Pero el promedio puede estar sesgado si se tienen en cuenta observaciones de hace mucho, de cuando $p$ era distinta. Es la tensión entre sesgo y varianza en estado puro.
Algunas soluciones que vienen a ser la misma
Hay varias soluciones para este problema que vienen a ser una sola. Menciono las que he usado en alguna ocasión.
- Usar algún tipo de “decaimiento” exponencial que quite peso a las observaciones viejas.
- Usar algún tipo de modelo flexible (p.e., splines) para modelar la evolución de $p$ a lo largo del tiempo.
- Usar algún tipo de modelo de “cambio de régimen” para identificar el punto de corte más reciente y usar en el modelo beta-binomial solo las observaciones a partir de dicho momento.
Se podría escribir y probar un teorema que demostrase que vienen a ser la misma cosa y que todas tienen que deshacer el mismo nudo gordiano (solo que de distinta manera): determinar cuánta historia usar. Esta profundidad histórica viene determinada en casa caso por:
- El tamaño del coeficiente $\lambda$ en el término de “decaimiento” $\exp(-\lambda t)$.
- La el grado de flexibilidad de los splines.
- La sensibilidad del criterio del punto de corte en la detección del cambio de régimen.
En el fondo, es pura heurística.
¿Qué dice la ciencia al respecto?
He estado buscando artículos al respecto y la sensación que me da es la academia ha convertido variaciones sobre los principios básicos de la heruística anterior en un pequeño subgénero dentro del nada comedido flujo de publicaciones científicas. Hay un artículo-resumen de hace diez años, A survey on concept drift adaptation que ilustra cómo, efectivamente, no hay apenas nada más allá de reinterpretaciones y variaciones ad hoc de los procedimientos mencionados en la sección anterior. Dudo —aunque tal vez algún lector pueda sacarme del error— que el asunto haya quedado zanjado en los diez años subsiguientes.