Log scoring = máxima verosimilitud

Hay dos técnicas en estadística que son una sola. Pero como se usan en contextos aparentemente distintos, tienen una historia diferente, se tratan con un lenguaje particular, posiblemente en asignaturas de distinto año, etc. y nadie se ha molestado en tender puentes, se consideran, prácticamente inconmensurables cuando, en el fondo, son la misma cosa.

Me refiero al llamado log scoring (para seleccionar entre modelos) y el principio de la máxima verosimilitud.

Máxima verosimilitud

No voy a pretender que el principio de la máxima verosimilitud sea lo que cuento a continuación, pero sí que es un ejemplo ilustrativo de su uso.

Se tira al aire una moneda 100 veces y se obtienen 60 caras. Hay un modelo de libro para este problema: que se trata de un experimento de Bernoulli con probabilidad $p$ de ocurrencia (de cara). El principio de la máxima verosimilitud postula que es adecuado estimar $p$ como el valor que maximiza $p^{60}(1-p)^{40}$ de entre todos los $p \in [0,1]$.

Tomando logaritmos, la estimación de $p$ es aquella que maximiza la expresión

$$60 \log(p) + 40 \log(p)$$

Visto de otro modo —i.e., como selección de modelos en lugar de ajuste de parámetros—, tenemos un número incontable de modelos, uno para cada valor $p \in [0,1]$, y nos decantamos por aquel que maximiza la expresión anterior.

Log scoring

De nuevo, no voy a pretender que el uso de los log scoring sea lo que cuento a continuación, pero sí que es un ejemplo ilustrativo de su aplicación.

Ahora tengo el mismo problema (tirada de monedas, etc.) y una serie de $n$ modelos realizados por varios equipos distintos. Todos son modelos de Bernoulli y todos están caracterizados por la probabilidad $p_1, \dots, p_n$ de cara.

Para determinar cuál es el mejor modelo usando los log scorings como criterio, estudiaría los valores

$$60 \log(p_i) + 40 \log(p_i)$$

con $i = 1, \dots, n$ y me quedaría con el modelo correspondiente al valor de $i$ que maximizase la expresión anterior.

En el fondo, como se ve, la misma cosa.

(Vale, sabemos que en el caso continuo —como el que describo arriba y que es el más habitual del uso del principio de la máxima verosimilitud— y de cumplirse ciertas condiciones adicionales, existe todo un arsenal metodológico que nos garantiza ciertas propiedades del estimador. Cosa que en el caso discreto, que es como tiende a utilizarse el criterio del log scoring no es siquiera planteable. Pero fuera de eso, conceptualmente, son una y la misma cosa.)