La función de pérdida es una API entre los "stakeholders" de un análisis estadístico
El objeto único de la estadística es informar decisiones.
V.g, si conceder un préstamo, proceder a la quimio, construir una línea de AVE entre Calatayud y Soria o permitir aparcar mañana en el centro de Madrid a los de Móstoles.
Pero quienes toman decisiones y quienes analizan datos suelen ser personas distintas. Típicamente, ni se conocen. Lo cual es tanto pésimo como tema para otra entrada distinta de esta.
Lo fundamental es que estas personas se comunican a través de, metafóricamente, APIs. Unas de las más usadas son los p-valores. Que son tan pésismos como tema para otra entrada distinta de esta.
Otras son las funciones de pérdida. La elección de la función de pérdida no es en absoluto neutral. La determinación de una función de pérdida adecuada al tipo de decisión ulterior es clave en el proceso de la llamada ingeniería estadística, es decir, la matematización de un problema previo a todo tipo de inferencia estadística o sancocho cientificodatil.
Si analistas y decisores no se conocen y el problema no está bien definido (o los actores son de segunda) los primeros bien pueden decantarse por medidas como el RMSE. El RMSE da el mismo peso a cualquier tipo de evento, lo cual se justifica cuando no hay criterio con el que jerarquizarlos. Pero en muchos casos, es conveniente penalizar selectivamente.
Pensemos en la contaminación. Si el nivel de NO2 excede cierto umbral, 200 nosequés, pasan cosas: los vecinos de Móstoles no pueden aparcar en el centro de Madrid. Si el modelo dice 20 cuando el valor real es 40, el RMSE aprecia una diferencia de 20; si el modelo dice 190 cuando el valor real es 210, lo mismo. Al RMSE le da igual. Pero a un conductor de Móstoles, no.
Podría hablar más pero os robaría un tiempo que prefiero que dediquéis a meditar lo anterior. Solo quiero justificar esta entrada. Tiene que ver con una pregunta que alguien me ha hecho sobre un aspecto que le interesaba de mi infame charla Antikaggle. Mencioné en ella por encima estas cuestiones, pero se me solicitaba una ampliación. Esencialmente, venía a decir que una de mis críticas a Kaggle –una, además, de las menos oídas y que bien podría resultar original (de servidor)– tiene que ver con el hecho de que la función de pérdida viene dada y que no es el analista, en discusión con el decisor (o apelando a su buen criterio) diseñe la más adecuada al ulterior problema de decisión.