Calibración

Sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Supongamos que estamos construyendo un modelo de clasificación binaria. Supongamos que está bien calibrado, es decir, que cuando predice una probabilidad $p$ de éxito para un sujeto $i$, entonces es cierto que $Y_i \sim \text{Bernoulli(p)}$.

Por otro lado, pensemos en el AUC, que es muchas cosas, pero entre ellas,

$$ AUC=Pr(p_i >p_j | Y_i =1,Y_j =0),$$

es decir la probabilidad de que, tomando dos sujetos al azar, uno positivo, el $i$ y otro negativo, el $j$, $p_i > p_j$.

Más sobre la estimación de probabilidades de eventos que no se repiten

Hace un tiempo hablé sobre la estimación de probabilidades de eventos que ocurren una única vez: elecciones, etc. Argumentaba cómo pueden ser descompuestos en dos partes muy distintas cualitativamente: una asociada a eventos que sí que se han repetido; otra, específica y única. El tamaño relativo de ambas componentes afecta a eficacia del mecanismo de estimación.

Esta vez quiero ilustrarlo con un ejemplo extraído, traducido y adaptado de aquí que ilustra el procedimiento.

Tengo cuenta en Hypermind

Acaban de notificarme que han aprobado mi cuenta en Hypermind. Hypermind es un mercado de predicciones cuyo funcionamiento está descrito aquí y aquí mejor que yo pudiera hacerlo.

Ya iré contando. En tanto, una imagen extraída de uno de los enlaces anteriores que vale por mil palabras: