Sesgo, calibración y variabilidad

Tenemos una población con dos grupos, 50% de cada. Por simplificar, nuestra población son monedas que son de dos tipos:

Construimos un modelo que predice siempre 50%. Entonces:

El modelo está bien calibrado: para aquellos para los que el modelo predice el 50% (que son todos), la probabilidad promedio de cara es del 50%.
El modelo tiene sesgo: si nos fijamos en los A, el modelo sobreestima; si nos fijamos en los B, infraestima.

El problema es la (falta de) variabilidad.

Y ahora:

En algunas aplicaciones, la calibración es suficiente: globalmente, nos basta con que el fenómeno de interés ocurra en un $x$% de los sujetos para los que predecimos $P = x$.
En otras —en realidad, casi siempre— nos gustaría que la propensión real de un sujeto X para el que $P(X = x)$ sea, efectivamente, $x$.