decisiones y ciencia de datos
más allá del RMSE
carlos j. gil bellosta (@gilbellosta )
herramientas para la toma de decisiones:
auc/roc,
p-valores,
rmse...
¿lo son realmente?
acciones, recompensas, escenarios, probabilidades y decisiones
acciones:
- conceder (o no) una hipoteca
- aceptar (o no) una transacción de tarjeta
- preparar 35 (o 40) camas en urgencias
- ...
recompensas
cada acción en un escenario concreto produce una recompensa dada
(es una función de acciones y escenarios)
decisiones
regla: opta por la acción que maximiza la recompensa promedio (ponderando por probabilidades)
el decisor necesita las probabilidades de los escenarios
(y en eso debería consistir la ciencia de datos)
los problemas del rmse
(y del auc, roc,...)
(científico de datos echando pestes porque su jefe no sabe qué es el auc)
el decisor necesita hablar de probabilidades (o dinero)
pero muchos científicos de datos hablan en términos de "acertar"
(en sus distintas variantes)
el principal problema de "acertar": la simetría
(i.e., todos los aciertos y todos los errores son idénticos)
pero el error es igual de importante que la predicción (puntual)
(por eso es imperativo modelar la incertidumbre)
¿por qué se usa el rmse?
(en libros, cursos, etc.)
efecto tolstoi:
"todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera"
¿errores cuadráticos?
- el rmse está asociado a errores normales
- en muchos problemas, los errores son simétricos
- son fáciles de manejar, enseñar,...
¿de dónde viene la incertidumbre?
riesgo y reservas
- plantear escenarios
- calcular probabilidades
- razonar sobre probabilidades
- incorporar beneficios a los modelos
vale.
... aunque la conversación continúa en:
¡muchas gracias!
decisiones y ciencia de datos
más allá del RMSE
carlos j. gil bellosta (@gilbellosta )
http://circiter.es - http://datanalytics.com