Probabilidad

Otro ejemplo de infradispersión de conteos

Estimados señores: Llevo 10 años revisando sus "CAJAS DE 100 CERILLAS" En 3409 ocasiones he contado 99 o 101 😨 ¿ESTÁN USTEDES LOCOS? 😠 pic.twitter.com/hyqI9Ncxqg — ☢️ 𝙍𝙖𝙙𝙞𝙖𝙘𝙩𝙞𝙫𝙤𝙈𝙖𝙣 ☢️ (@RadiactivoMan) February 16, 2017 Esta entrada, obviamente, viene a cuento de esta otra.

1/e por doquier

Leía ¿Es muy difícil (estadísticamente) no dar ni una?, donde se discute la probabilidad de que $s(i) \neq i$ $\forall i$ cuando $s$ es una permutación. El problema está relacionado, como podrá ver quien visite el enlace, con la probabilidad de repetición del sorteo en el juego del amigo invisible. Esta probabilidad converge, al crecer $n$, a $1/e \approx 0.367879$. ¡0.367879! Eso es… eso es… ¡1 - .632…! Pero .632 es un número como de la familia y relacionado (consúltese el enlace) con el bootstrap. ...

Decisiones bajo incertidumbre (I)

Frecuentemente nos interesan unos efectos (E), tales como: Si un sujeto cumplirá con los términos de una hipoteca. Si un paciente responderá a un tratamiento. Si un adlátere circunstancial en el tren nos regalará una conversación amena. Si un transeúnte podrá o no darnos fuego para prender un cigarro. Si un individuo es o no un criminal. Si un candidato será o no un trabajador productivo en una empresa. Etc. Son variables aleatorias. En ciertos casos, si no todos, se puede suponer que estos efectos dependen de determinados factores lantentes (L). Y se puede crear una red bayesiana similar a esta: ...

Modelos gráficos probabilísticos en Coursera

Acabo de terminar el primero de los tres cursos sobre modelos gráficos probabilísticos de Coursera. El curso sigue una sinuosa senda a través del libro (¡1200 páginas!) Probabilistic Graphical Models de D. Koller y N. Friedman. Aunque cueste un potosí, es posible hojearlo gratis para ver si vale la pena o no comprarlo gracias a nuestros amigos de LibGen. Tiene mucho de bueno. Lo mejor, sin duda alguna, el universo de problemas que plantea y a los que se aplican los modelos gráficos. No son el sota, caballo y rey de los manuales de métodos de clasificación, regresión, etc. Las correlaciones entre variables se explicitan y se modelan usando criterios (p.e., de expertos humanos), en lugar de fiarlo todo al descenso de un gradiente. ...

Probabilidades y probabilidades

Leo hoy que La probabilidad de que gane Trump es del ~13%. Más o menos la probabilidad de que Cristiano Ronaldo falle un penalti. — Kiko Llaneras (@kikollan) October 16, 2016 Pero: Hemos visto a Cristiano Ronaldo chutar muchos penaltis y hemos podido calcular el cociente entre los anotados y los tirados. Es la primera vez en la vida que Trump se presenta a las elecciones de EE.UU. ¿A nadie le intriga cuál es ese misterioso mecanismo por el que se pueden comparar ambas probabilidades? [Voy a usar ontológicamente] ¿Nadie las ve ontológicamente distintas?

Hamilton al rescate de Metropolis-Hastings

El algoritmo de Metropolis-Hastings se usa para muestrear una variable aleatoria con función de densidad $p$. Permite crear una sucesión de puntos $x_i$ que se distribuye según $p$. Funciona de al siguiente manera: a partir de un punto $x_i$ se buscan candidatos a $x_{i+1}$ de la forma $x_i + \epsilon$, donde $\epsilon$ es, muy habitualmente, $N(0, \delta)$ y $\delta$ es pequeño. De otra manera, puntos próximos a $x_i$. Un candidato se acepta (y se convierte en $x_{i+1}$) o se rechaza (y toca probar con otro) según los valores de $p(x_i)$ y $p(x_i + \epsilon)$: ...

Distribuciones sin media: ¿qué pueden suponer en la práctica?

Aunque esta entrada es sin duda resabida de los más de mis lectores, quedarán los que aún no sepan que ciertas distribuciones no tienen media. Condición necesaria para que una distribución la tenga es que $$ \int_{-\infty}^\infty |x| f(x) dx$$ tenga un valor finito, cosa que, por ejemplo, no cumple la de Cauchy. Igual hay a quien esto le parece una rareza matemática, un entretenimiento de math kiddies sin implicaciones prácticas. Además, porque para que la integral anterior diverja se necesita que las distribuciones puedan tomar valores arbitrariamente altos y las que se manejan en la práctica están acotadas si no por el número de átomos del universo por el de céntimos de bolívar venezolano necesarios para comprar todas las cosas que caben en el ancho mundo. ...

El extraño caso de la media empírica menguante

La distribución lognormal es la exponencial de una distribución normal. Su media, Wikipedia dixit, es $\exp(\mu + \sigma^2 /2)$. Dada una muestra de la distribución lognormal (y supuesto, por simplificar, $\mu=0$), podemos calcular su media y una estimación de su $\sigma$ y calcular $\exp(\sigma^2 /2)$ y uno pensaría que los valores deberían ser similares. Mas pero sin embargo, library(ggplot2) set.seed(123) sigmas <- seq(1, 10, by = 0.1) res <- sapply(sigmas, function(sigma){ a <- exp(rnorm(1e6, 0, sigma)) mean(a) / exp(var(log(a))/2) }) tmp <- data.frame(sigmas = sigmas, medias = res) ggplot(tmp, aes(x = sigmas, y = medias)) + geom_point() + geom_smooth() produce ...

Funciones de densidad log-cóncavas

Las funciones de densidad log-cóncavas son aquellas cuyo logaritmo es una función cóncava. Por ejemplo, la normal: el logaritmo de su función de densidad es, constantes aparte, $-x^2/2$. El producto de dos funciones de densidad log-cóncavas es log-cóncava: $\log(fg) = \log f + \log g$ (y la suma de cóncavas es cóncava: calcula la segunda derivada). También lo son la suma de dos variables aleatorias cuyas funciones de densidad lo son (la demostración es consecuencia de esta desigualdad). ...

Un ejemplo de "importance sampling" (que no sé cómo traducir)

Imaginemos que queremos muestrear una variable aleatoria cuya función de densidad es (proporcional a) el producto de otras dos (no necesariamente propias). Por ejemplo, la gamma, cuya función de densidad es $K x^{k-1} \exp(-\lambda x)$, el producto de una exponencial y una distribución impropia con densidad $x^{k-1}$. Supongamos que no sabemos hacer set.seed(1234) shape <- 3 rate <- 3 m0 <- rgamma(1000, shape = shape, rate = rate) Pero supongamos que sí que sabemos muestrear la distribución exponencial, lo que permite escribir: ...