Sesgo, calibración y variabilidad

Tenemos una población con dos grupos, 50% de cada. Por simplificar, nuestra población son monedas que son de dos tipos:

  • A, con probabilidad de cara del 25%.
  • B, con probabilidad de cara del 75%.

Construimos un modelo que predice siempre 50%. Entonces:

  1. El modelo está bien calibrado: para aquellos para los que el modelo predice el 50% (que son todos), la probabilidad promedio de cara es del 50%.
  2. El modelo tiene sesgo: si nos fijamos en los A, el modelo sobreestima; si nos fijamos en los B, infraestima.

El problema es la (falta de) variabilidad.

Para saber más, Calibration of clinical prediction rules does not just assess bias.

Y ahora:

  1. En algunas aplicaciones, la calibración es suficiente: globalmente, nos basta con que el fenómeno de interés ocurra en un $x$% de los sujetos para los que predecimos $P = x$.
  2. En otras —en realidad, casi siempre— nos gustaría que la propensión real de un sujeto X para el que $P(X = x)$ sea, efectivamente, $x$.