Teoría De La Decisión

Una justificación desapasionada del promedio como mecanismo para agregar predicciones

Existe incertidumbre sobre el resultado, 0 o 1, de un evento de interés $X$. Se convoca a $n$ expertos que hacen predicciones $p_1, \dots, p_n$ sobre dicho evento, i.e., el experto $i$ considera que $P(X = 1) = p_i$. Entonces, ¿cómo se pueden combinar las predicciones $p_i$ para obtener una predicción conjunta $p$?

Uno pensaría que el promedio, $p = \frac{1}{n} \sum_i p_i$, es una opción razonable. En la literatura se discuten también generalizaciones del tipo $p = \sum_i w_i p_i$ para pesos $w_i$ que suman 1. Sin embargo, en sitios como este se sugiere usar la media geométrica de los odds (o, equivalentemente, la aritmética de los log ods), es decir, calcular los log odds,

¿Estamos tratando justamente a los "algoritmos"?

I.

A veces hay que tomar decisiones (p.e., ¿quién asciende?, ¿hay que hacer una radiografía?, ¿se concede esta hipoteca?, etc.). Esas decisiones, simplificando mucho, se pueden tomar de dos maneras:

  • Mediante procesos clínicos, donde un experto o conjunto de expertos realiza una evaluación.
  • Mediante procesos actuariales, donde a un algoritmo adecuadamente entrenado y calibrado se le facilitan unos datos para que calcule un scoring.

Nota 1: Aquí estoy utilizando nomenclatura (clínico, actuarial) usada por Paul Meehl (véase esto, esto o esto), aunque a los segundos tal vez cabría llamarlos, con más propiedad, estadísticos. Y sí, se refiere a los que el vulgo llama algoritmos.

El equivalente cierto (y apuntes para su aplicación en el monotema ¡tan cansino! de este tiempo)

A veces toca comparar dos variables aleatorias: ¿cuál de dos juegos preferirías? Hay muchas maneras de resolver ese problema, de una larga historia, con mejor o peor fortuna. En el fondo, hay que crear un orden en el conjunto de las variables aleatorias y, en el fondo —y perdónenme mis excolegas matemáticos—, proyectarlas de alguna manera sobre los números reales.

Si este número real se elige de alguna manera razonable (p.e., fijando las variables aleatorias constantes), bien puede recibir el nombre de equivalente cierto. Que es el nombre que recibe en algunas disciplinas, pero que me parece particularmente afortunado.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, y IV

[Esta es la cuarta y última (por el momento) de una serie de entradas sobre el tema que se anuncia en el título.]

En la tercera entrega de la serie se introdujo el frecuentismo como una particular manera de resolver el problema de minimización asociado a la expresión

$$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta.$$

En esta entrada se introducirá el bayesianismo de manera análoga con el concurso del teorema de Fubini (que, recuérdese, permite conmutar las integrales):

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, III

[Esta es la tercera de una serie de cuatro o cinco entradas sobre el tema que se anuncia en el título.]

Terminó la segunda entrada de anunciando cómo la manera de operar con la expresión

$$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta$$

determina las dos grandes corrientes dentro de la estadística. Para entender la primera, el frecuentismo, se debe reescribir la expresión anterior como

$$L(\hat{\theta}) = \int_\theta \left[\int_X L(\theta, \hat{\theta}) p(X | \theta) dX \right] p(\theta)d\theta$$

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, II

[Esta es la segunda de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.]

Terminó la primera entrada de la serie reconociendo que aún no se había entrado en materia estadística, que para ello habría que hablar de datos. Y, en efecto, la estadística principia cuando, por decirlo de manera sugerente aunque breve e imprecisa, $\theta$ genera unos datos $X$ que proporcionan pistas sobre su naturaleza.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, I

[Esta es la primera de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.]

$\theta$ es un valor desconocido. Por algún motivo, necesitamos encontrar un valor $\hat{\theta}$ —que podríamos llamar de cualquier manera, pero que, por lo que sigue, será podemos convenir en denominar estimación de $\theta$— tal que minimicemos una determinada función de error

$$L(\theta, \hat{\theta}).$$

Por fijar ideas, un ejemplo: alguien nos puede haber dicho que ha pensado un número (entero) entre el 1 y el 10, $\theta$ y que nos dará un premio si lo acertamos, es decir, si proporcionamos un $\hat{\theta}$ y resulta que $\theta = \hat{\theta}$. Una función de error aplicable sería:

En respuesta a los "dudacionistas" de la vacuna que me preguntaron, preguntan o preguntarán

Previo:

  • Hoy he oído el término dudacionista (de la vacuna) por primera vez. Me parece, por lo que contaré después, mucho más apropiado —y en otros que también aclararé, mucho menos— que negacionista para muchos de los casos que conozco.
  • Varios dudacionistas me han preguntado sobre mi opinión sobre su postura. Por referencia (mía y suya) y para poder contestar a los que vengan con una url, escribo lo que sigue.
  • Escribí una entrada hace un tiempo, esta, en el que esbozaba una postura comprensiva hacia los dudacionistas en las primeras fases de la vacunación en el que argumentaba alrededor del principio de precaución (esencialmente).
  • Entonces no, pero ahora ya sí tengo mis dos dosis preceptivas de la vacuna.

Tras lo cual, comienzo.

Máxima verosimilitud vs decisiones

En Some Class-Participation Demonstrations for Introductory Probability and Statistics tienen los autores un ejemplo muy ilustrativo sobre lo lo relativo (en oposición a fundamental) del papel de la máxima verosimilitud (y de la estadística puntual, en sentido lato) cuando la estadística deja de ser un fin en sí mismo y se inserta en un proceso más amplio que implica la toma de decisiones óptimas.

Se trata de un ejemplo pensado para ser desarrollado en una clase. Consiste en un juego en el que el profesor muestra a los alumnos un bote con monedas y les propone que traten de acertar su número exacto. En tal caso, los alumnos se la quedan y pueden repartirse el contenido.

¿Mercados de apuestas como cobertura?

Cierta gente, mucha, está mostrando su sorpresa en estos días acerca de las discrepancias entre lo que dicen las encuestas por un lado y el consenso de los mercados de apuestas con respecto a lo de Trump. Por ejemplo, aquí, aquí o

Clasificación vs predicción

Aquí se recomienda, con muy buen criterio, no realizar clasificación pura, i.e., asignando etiquetas 0-1 (en casos binarios), sino proporcionar en la medida de lo posible probabilidades. Y llegado el caso, distribuciones de probabilidades, claro.

La clave es, por supuesto:

The classification rule must be reformulated if costs/utilities or sampling criteria change.

Gestión del riesgo: una perífrasis con hitos aprovechables

Traigo a la consideración de mis lectores Sobre la Sostenibilidad Fiscal de España (II), un artículo de hace un tiempo que es una larga perífrasis alrededor de principios cualitativos muy contrastados sobre la gestión de riesgo (bajo incertidumbre, si se me tolera el pleonasmo). La conclusión es bien sabida pero el camino recorre una serie de hitos que mucho tienen que ver con lo que suelo escribir por aquí. Arranca con una afirmación desconcertante:

Las decisiones son lo primario; la estadística es subsidiaria

En Circiter estamos negociando con unos clientes potenciales acerca de, tal como nos dijeron inicialmente, construir un modelo. Todo bien.

En la última reunión surgió la pregunta (¡qué vergüenza por mi parte no haberla planteado mucho antes!): ¿cómo habría que usarlo para dar soporte al negocio? La discusión subsiguiente dejó claro que habría que cambiar sustancialmente la aproximación al modelo. Por ejemplo:

  • Era tanto o más importante la discriminación intra-sujeto que la entre-sujeto (es decir, importaba más lo que el modelo pudiera decir de los ítems de cada sujeto que las diferencias que pudiera mostrar entre sujetos).
  • La capacidad predictiva del modelo, aun siendo importante, se volvía una medida subsidiaria.
  • Cobraba una particular relevancia el problema del cold-start.

En definitiva, la necesidad de uso cambiaba la estrategia de modelación de arriba a abajo.