Artesanía Estadística

Todos los errores son iguales, pero algunos son más iguales que otros

Por eso, en la práctica, el RMSE y similares son irrelevantes. Aunque eso, desgraciadamente, no quiere decir que no sean utilizados.

Pero en muchas ocasiones no es el error medio la medida importante. A menudo, uno quiere detectar outliers: una variable de interés tiene un comportamiento normal la mayor parte del tiempo; pero en ocasiones, en raras ocasiones, cuando supera determinado umbral, produce catástrofes. Dejarse guiar por el RMSE (o similares) generaría una peligrosa sensación de seguridad: detectaría la normalidad; pero la la anormalidad, lo verdaderamente interesante, le resultaría inasequible.

El problema del 100% (y un ensayo de solución)

Te encargan un modelo. Por ejemplo, relacionado con el uso de tarjetas de débito y crédito (aunque a lo que me referiré ocurre en mil otros contextos). Una variable que consideras importante es la proporción de veces que se usa para sacar dinero de cajeros (y no para pagar en establecimientos). Así que, para cada cliente, divides el número de retiradas por el número de veces que la tarjeta se ha usado y obtienes ese número entre el 0 y el 1 (o entre el 0% y el 100%).

The Elements of Statistical Craftsmanship

En How Statistics lifts the fog of war in Syria se describe una solución al problema de estimar el número de víctimas en cierto lance de la guerra de Siria. Lo complicado del problema es que existen diversos recuentos independientes y las víctimas pueden aparecer en todos, alguno o ninguno.

Me llama la atención que el método utilizado sea el de los bosques aleatorios (en particular, el randomForest de R). No sabría cómo utilizarlo para resolver este problema. Tampoco he tenido tiempo para entrar en los detalles.