Posteriori

No hace falta que cuente aquella historia del tablero de ajedrez, los granos de trigo, etc. ¿verdad? (Desavisados: leed esto.) La entrada de hoy se ocupa de un problema dual: el número de granos de trigo será fijo, pero hay que repartirlo en un número explosivamente creciente de casillas.

Imagina ahora que quieres ajustar un modelo bayesiano usando MCMC. Imagina que tienes 1, 2, 3,… variables. Imagina el espacio de dimensión $n$ definido por dichas variables. El número de cuadrantes es $2^n$.

Si eres vegano, vale, come tu lechuga y tu berenjena. Pero, ¿qué necesidad tienes de hamburguesas veganas? ¿Y a qué viene ufanarte de que saben casi igual?

[Nota: el párrafo anterior está escrito en condicional y aplica a ciertos veganos, entrellos alguno que conozco.]

Siempre he visto todo lo que rodea a los factores de bayes un tufillo a hamburguesa vegana. Es decir, un intento por reproducir lo más fidedignamente posible aquello que —¿por razones metodológicas?— rechazamos.

Aquí se describe una suerte de recíproco para el teorema de Bernstein–von Mises. Aquí se resume de esta manera:

The celebrated Aumann’s Agreement Theorem shows that two rational agents with the same priors on an event who make different observations will always converge on the same posteriors after some civilized conversation over tea.

En resumen:

B-vM: frente a la misma evidencia, observadores con prioris distintas tienen posteriores similares.
Aumann: frente a evidencias disímiles, observadores con las mismas prioris pueden acordar posterioris similares.

Las dimensiones altas son un campo minado para la intuición. Hace poco (y he perdido la referencia) leí a un matemático que trabajaba en problemas en dimensiones altas decir que le gustaba representar y pensar en las bolas (regiones del espacio a distancia <1 de 0) en esos espacios usando figuras cóncavas, como las que aparecen a la izquierda de

precisamente porque una de las propiedades más fructíferas de las bolas en altas dimensiones es que apenas tienen interior. De hecho, es trivial probar que la proporción del volumen de una bola a distancia mayor que $latex \epsilon$ de su borde tiende a cero con la dimensión.

El método de Laplace para aproximar funciones puede usarse para:

Resolver integrales, como aquí
O para aproximar distribuciones (como esta posteriori o estas otras)

Nota: Y más vale que funcione bien y a escala o voy a tener problemas en un inminente proyecto.

Más sobre lo de ayer. O más bien, una justificación por analogía.

Con monedas.

Tiras una moneda 100 veces y obtienes 60 caras. Tienes una priori $latex B(a,b)$ (beta). Tomas una muestra de valores $latex p_i$ con esa distribución y para cada una de ellas repites el experimento, es decir, obtienes lo que en R se expresaría de la forma

rbinom(1, 100, p[i])

Si te quedas los valores $p_i$ tales que esa simulación es 60, enhorabuena, tienes una muestra de la distribución a posteriori.

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos?

Eso, ¿para qué queremos datos?

El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética:

En una empresa, un consejero tiene un proyecto, una idea. La tiene que defender frente al CEO y el resto del consejo. Ahí entra la ciencia de datos: alguien presenta un documento con tablas y gráficos que le dan un sostén basado en datos [a aquellas ideas que son previas a los datos].

Allá por el 2007 publicó The Independent una portada en que se retractaba. El diario había sido un histórico defensor de la legalización de la marihuana. Ese día hizo público su cambio de postura. Al parecer, motivada por las evidencias sobre los efectos sobre la salud mental.

Este fin de semana he asistido a una serie de conferencias. En una de ellas participaba el representante de una organización que:

Adoptaba de partida una posición militante, de parte, en cierto asunto de interés público.
Se definía como data driven, evidence driven, etc.

La pregunta obvia y que no tuve ocasión de plantear (por eso la traigo aquí) es la siguiente: si los datos y la evidencia se obstinaran en subrayar la bondad de la posición contraria a la que actualmente mantienen, ¿cuál de sus dos principios abandonarían primero?

Posteriori

¿Qué nos enseña la historia de los granos de trigo sobre el muestreo de las posterioris?

Los factores de Bayes son las hamburguesas veganas

Un recíproco para el teorema de Bernstein–von Mises

Las altas dimensiones son campo minado para la intuición

El método de Laplace para aproximar ciertas funciones

ABC (II)

Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

Militancia y datos