Andrew Gelman escribió recientemente These are the three ways of attacking a statistical problem (illustrated with the NFL example) en el que se enfrenta a un problema estadístico usando tres técnicas distintas.

El problema consiste en determinar cuál es el patrón de resultados más frecuente en series de cuatro enfrentamientos entre equipos de fútbol americano: todas las combinaciones $(x_1, x_2, x_3, x_4)$, donde $x_i \in {0, 1}$, desde $(1, 1, 1, 1)$ (el primer equipo gana todos los enfrentamientos) hasta $(0, 0, 0, 0)$ (el primer equipo pierde todos los enfrentamientos).

Los tres métodos que discute son los que llama:

  • el probabilístico,
  • el puramente empírico y
  • la modelización estadística.

Para el primero considera el modelo probabilístico

$$P(\text{team i beats team j}) = \text{invlogit}(a_i – a_j + b*\text{home}_{ij})$$

que depende de y utiliza algunas aproximaciones razonables para los distintos parámetros:

  • Las $a_j$ proceden de una distribución normal (las habilidades de cada equipo) con una $\sigma$ elegida para las diferencias entre determinados cuantiles tengan un impacto razonable.
  • Para el efecto del campo, $b$, usa información a priori obtenida de algún tipo de estudio, según la cual, los equipos que juegan en casa tienen una probabilidad bruta de ganar, es decir, sin tener en cuenta otras consideraciones, del 55%.

Con eso simula y obtiene una serie de resultados y frecuencias para cada una de las opciones.

El método empírico consiste en buscar los históricos de resultados y tabular. No lo desarrolla, pero es factible: los datos existen.

El tercer método consiste en este caso en plantear otro modelo,

$$\text{score differential} \sim N(a_i - a_j + b*\text{home}_{ij}, sigma_y)$$

y ajustarlo sobre datos históricos de resultados de partidos. Luego, con ello, simular.

La pregunta que me hago yo es: ¿son tan distintos entre sí? En el fondo:

  • Todos ellos plantean un modelo probabilístico. Aunque no lo parezca a primera vista, incluso el segundo lo hace: estima ciertas probabilidades de ocurrencia a través de sus frecuencias, cosa que en el fondo es el principio de la máxima verosimilitud para el modelo probabilístico implícito.
  • Todas ellas usan datos. Algunas aproximaciones necesitan más, otras menos. Pero en todas ellas hay una «mirada al mundo».
  • Todas plantean hipótesis probabilísticas más o menos defendibles. Por ejemplo, en las dos últimas, que patrones observados en los años 50 son todavía relevantes hoy. Y el primero, que la calidad de los equipos puede modelarse mediante una distribución normal.

En el fondo, donde Gelman encuentra tres formas cualitativamente distintas de enfrentarse a un problema yo veo tres puntos dentro de un espectro.