Probabilidad

Me acusan (quien lo hizo, si me lee, sabrá identificarse) de repetirme, de contar una historia dos, y sino me paran los pies, tres y más veces. Ya me pasó una vez por aquí. Espero que no me esté volviendo a suceder hoy porque habría jurado haber mencionado este asunto antes.

Es el de la estimación de la probabilidad de eventos todavía no observados. Traduzco y (como no rectoreo universidad pública alguna y, por ende, no puedo permitirme el lujo de copiar sin citar) luego diré de donde:

Dichoso me tenía por no acordarme siquiera de las CUP, cuando una nota me ha hecho volver a lo de su otrora famoso pero ahora arrumbado por el constante devenir de otras noticias más enjundiosas (pausa) asunto: el de su empate.

asamblea_extremadura

La noticia en cuestión es esta, que conduce a esto y en definitiva a esto otro, que es donde reside lo enjundioso.

En realidad, el caso que explica el artículo es algo más complicado del que aplicaría en el caso de las CUP, pero exigiría igualmente, como ya indiqué en su día, especificar una serie de apriorismos no siempre a mano.

Acabo de terminar el primero de los tres cursos sobre modelos gráficos probabilísticos de Coursera.

El curso sigue una sinuosa senda a través del libro (¡1200 páginas!) Probabilistic Graphical Models de D. Koller y N. Friedman. Aunque cueste un potosí, es posible hojearlo gratis para ver si vale la pena o no comprarlo gracias a nuestros amigos de LibGen.

probabilistic_graphical_models

Tiene mucho de bueno. Lo mejor, sin duda alguna, el universo de problemas que plantea y a los que se aplican los modelos gráficos. No son el sota, caballo y rey de los manuales de métodos de clasificación, regresión, etc. Las correlaciones entre variables se explicitan y se modelan usando criterios (p.e., de expertos humanos), en lugar de fiarlo todo al descenso de un gradiente.

Leo hoy que

La probabilidad de que gane Trump es del ~13%. Más o menos la probabilidad de que Cristiano Ronaldo falle un penalti.
— Kiko Llaneras (@kikollan) October 16, 2016

Pero:

Hemos visto a Cristiano Ronaldo chutar muchos penaltis y hemos podido calcular el cociente entre los anotados y los tirados.
Es la primera vez en la vida que Trump se presenta a las elecciones de EE.UU.

¿A nadie le intriga cuál es ese misterioso mecanismo por el que se pueden comparar ambas probabilidades? [Voy a usar ontológicamente] ¿Nadie las ve ontológicamente distintas?

El algoritmo de Metropolis-Hastings se usa para muestrear una variable aleatoria con función de densidad $latex p$. Permite crear una sucesión de puntos $latex x_i$ que se distribuye según $latex p$.

Funciona de al siguiente manera: a partir de un punto $latex x_i$ se buscan candidatos a $latex x_{i+1}$ de la forma $latex x_i + \epsilon$, donde $latex \epsilon$ es, muy habitualmente, $latex N(0, \delta)$ y $latex \delta$ es pequeño. De otra manera, puntos próximos a $latex x_i$. Un candidato se acepta (y se convierte en $latex x_{i+1}$) o se rechaza (y toca probar con otro) según los valores de $latex p(x_i)$ y $latex p(x_i + \epsilon)$:

Hay platos con nombre. P.e., tortilla de patata o tiramisú. También hay distribuciones (de probabilidad) con nombre. P.e., normal, binomial, Poisson, hipergeométrica.

Hay quienes quieren saber (1) todas (o muchas) de esas distribuciones con nombre y (2), dados unos datos, cuál de ellas siguen. Esta entrada va a tener la url a la que de ahora en adelante remita a quien me las formule.

A pesar de que algunos platos tienen nombre, el otro día se podía probar en el Diverxo espárrago blanco a la mantequilla negra con emulsión de leche de oveja, espardeña y salmonete. Que no es ni tortilla de patata, ni tiramisú ni otra cosa con nombre que se le parezca.

Las funciones de densidad log-cóncavas son aquellas cuyo logaritmo es una función cóncava. Por ejemplo, la normal: el logaritmo de su función de densidad es, constantes aparte, $latex -x^2/2$.

El producto de dos funciones de densidad log-cóncavas es log-cóncava: $latex \log(fg) = \log f + \log g$ (y la suma de cóncavas es cóncava: calcula la segunda derivada). También lo son la suma de dos variables aleatorias cuyas funciones de densidad lo son (la demostración es consecuencia de esta desigualdad).

Imaginemos que queremos muestrear una variable aleatoria cuya función de densidad es (proporcional a) el producto de otras dos (no necesariamente propias). Por ejemplo, la gamma, cuya función de densidad es $latex K x^{k-1} \exp(-\lambda x)$, el producto de una exponencial y una distribución impropia con densidad $latex x^{k-1}$.

Supongamos que no sabemos hacer

set.seed(1234)
shape <- 3
rate  <- 3
m0 <- rgamma(1000, shape = shape, rate = rate)

Pero supongamos que sí que sabemos muestrear la distribución exponencial, lo que permite escribir:

Son lenguajes de programación diseñados para describir odelos probabilísticos y realizar inferencias sobre dichos modelos.

El resto de la entrada de la Wikipedia sobre este apasionante (y lo uso sin retintín) tema, aquí (y puede que también quieras visitar esto).

Por afición y, últimamente, por motivos laborales también, me ha preocupado cómo se refleja la incertidumbre en el lenguaje y cómo este sirve para transmitir aquella (véase, por ejemplo, esto).

En el español tenemos algunos recursos para manifestar grados de certidumbre (el condicional, el subjuntivo, etc.). Véanse por ejemplo (esta es la referencia) a los 570 sufridos hablantes del tuyuca que no pueden decir simplemente “él jugaba al fútbol”, sino que tienen que elegir obligatoriamente entre los diferentes sufijos verbales que (además de indicar la persona y el tiempo) indican el modo por el cual el hablante obtuvo el conocimiento que afirma en el enunciado:

Probabilidad

La regla del tres (para estimar la probabilidad de un evento todavía no observado)

Probabilidades de empates en elecciones

Modelos gráficos probabilísticos en Coursera

Probabilidades y probabilidades

Hamilton al rescate de Metropolis-Hastings

Las distribuciones (y platos) con nombre

Funciones de densidad log-cóncavas

Un ejemplo de "importance sampling" (que no sé cómo traducir)

Lenguajes de programación probabilísticos

Evidencialidad