Estadística Bayesiana

"Cuando los datos y las anécdotas no concuerdan, las anécdotas suelen ser correctas"

En la cuenta @StartupArchive_ de Twitter se publicó un vídeo de una entrevista a Jeff Bezos y (¿parte?) de su transcripción. Dice, con mi traducción:

Jeff Bezos nos cuenta cómo una vez llamó al servicio de atención al cliente de Amazon en mitad de una reunión para demostrar que una métrica era incorrecta.

[…] Jeff cuenta una historia de los primeros días de Amazon, cuando sus métricas indicaban que los clientes esperaban menos de 60 segundos en obtener una respuesta después de llamar al número de atención al cliente. Sin embargo, las quejas de los clientes parecían indicar lo contrario. Como explica Jeff:

La probabilidad de que 2+2 siga siendo 4 dentro de 12 meses es algo menor del 100%

Escribí hace un tiempo sobre las probabilidades subjetivas y cómo Leonard Savage sugería pensar en la probabilidad de un evento como

la [máxima] cantidad que uno debería estar dispuesto a pagar por el derecho a recibir 100 € si el evento finalmente ocurre.

De acuerdo con esa definición, ¿cuál sería la probabilidad de que 2+2 siga siendo 4 dentro de doce meses? Uno estaría tentado a decir que es del 100%, es decir, que pagaría hasta 100 € por el derecho a recibir 100 € en un año si 2+2 es todavía 4 para entonces.

La gestión de la deriva como problema fundamental del bayesianismo

Esta entrada no versa propiamente sobre estadística bayesiana (aunque también) sino sobre el bayesianismo entendido —exageradamente, a veces— como la columna vertebral de la epistemología. De acuerdo con tal visión, solo podemos conocer las cosas —concedido: no todas— con cierto grado de certeza y tanto este conocimiento como la incertidumbre van adaptándose a la información adicional que llega de acuerdo con un criterio: la regla de Bayes.

Pensemos en el ejemplo clásico del lanzamiento de monedas. No sabemos nada a priori sobre la probabilidad $p$ de cara, por lo que nuestro conocimiento sobre el asunto puede modelarse con una beta $B(1,1)$, una distribución uniforme sobre el intervalo $[0,1]$. Conforme observamos lanzamientos, de ser racionales, iremos modificando esa distribución. Si al cabo de $n$ lanzamientos observamos $c$ caras y $n-c$ cruces, nuestro conocimiento sobre $p$ estará recogido en una $B(c+1, n-c+1)$. Esa distribución estará típicamente centrada alrededor del valor real de $p$ y tendrá una dispersión que decrecerá con $n$. (En otra versión, hay un primer conjunto de datos, se obtiene una posteriori y dicha posteriori se convierte en la priori de un análisis ulterior cuando se observa un conjunto de datos adicional).

SVI, ELBO y todas esas cosas: un ejemplo básico

I.

Va por delante que esta entrada está basada en esto. Se trata, de hecho, de las notas que he extraído mientras profundizaba en la implementación que hace NumPyro de la inferencia variacional, el ELBO, etc.

Antes de nada, nos quitamos los requisitios de en medio:

import jax.numpy as jnp
import matplotlib.pyplot as plt
import numpyro

import numpyro.distributions as dist
import numpyro.distributions.constraints as constraints

from jax import random
from numpyro.infer import SVI, Predictive, Trace_ELBO, MCMC, NUTS

rng_key = random.PRNGKey(seed=42)

Definimos un consabidísimo modelo —tiradas de moneda con una priori $\text{Beta}(10,10)$— y unos datos —sesenta caras y cuarenta cruces—:

Descuento hiperbólico: una perspectiva bayesiana

Por un lado, nos enseñan que para descontar flujos de caja futuros tenemos que usar la función exponencial —para una determinada tasa de descuento o, en algunos contextos, tipo de interés—:

$$\text{valor presente} = A \exp(-tr)$$

donde $A$ es una cierta cantidad que recibiremos en el momento futuro $t$ y donde $r$ es nuestra tasa de descuento.

Por otro lado, experimentos de la sicología y la economía conductual, parecen indicar que la gente se tiende a regir por una regla distinta, la del llamado descuento hiperbólico

Doxa, episteme y gnosis: una reinterpretación bayesiana

Dícese que los griegos distinguían tres (cuando menos) tipos de conocimiento:

  • Doxa: o aquello que conocemos porque nos lo han contado, sea en Twitter o en arXiv.
  • Gnosis: o aquello que conocemos por la experiencia personal, a través de los sentidos o, supongo que hoy en día, también a través de instrumentos de medida diversos.
  • Episteme: o aquello que decimos saber porque hemos razonado y tenemos ciertas garantías de su veracidad.

Así planteados, son tres patas de un mismo taburete, tres monedas en el bolsillo, un conjunto, en definitiva, de tres elementos.