Sesgo, calibración y variabilidad
Tenemos una población con dos grupos, 50% de cada. Por simplificar, nuestra población son monedas que son de dos tipos:
- A, con probabilidad de cara del 25%.
- B, con probabilidad de cara del 75%.
Construimos un modelo que predice siempre 50%. Entonces:
- El modelo está bien calibrado: para aquellos para los que el modelo predice el 50% (que son todos), la probabilidad promedio de cara es del 50%.
- El modelo tiene sesgo: si nos fijamos en los A, el modelo sobreestima; si nos fijamos en los B, infraestima.
El problema es la (falta de) variabilidad.
Para saber más, Calibration of clinical prediction rules does not just assess bias.
Y ahora:
- En algunas aplicaciones, la calibración es suficiente: globalmente, nos basta con que el fenómeno de interés ocurra en un $x$% de los sujetos para los que predecimos $P = x$.
- En otras —en realidad, casi siempre— nos gustaría que la propensión real de un sujeto X para el que $P(X = x)$ sea, efectivamente, $x$.