Probabilidad

La falacia del fiscal: la/mi mejor explicación para profanos hasta la fecha

Leyendo The Tiger That Isn’t di con una manera alternativa para explicar la llamada falacia del fiscal de la que ya me he ocupado aquí y aquí.

Relata lo ocurrido en un pueblo inglés en el que una noche, unos vecinos (presuntamente), descendientes sin duda de aquellos campesinos búlgaros que huían de la vacuna, echaron abajo una antena de telefonía móvil que tenía al pueblo en vilo (la historia, aquí). Porque, resulta, alrededor de ella se habían dado recientemente n casos de cáncer: aquello era un clúster de cáncer. Y puestos a buscar culpables, ¿por qué no el electromagnetismo?

Los extraños números de los muertos en carretera por accidente

Escribo esta entrada con cierta prevención porque soy consciente de que dan pábulo a determinadas teorías conspiranoicas de las que soy declarado enemigo. Pero es que los números de muertos en carretera por accidente en España en los últimos años,

(extraídos de aquí) dan que pensar: la varianza de las observaciones correspondientes a los años 2013, 2014 y 2015 es muy baja, demasiado baja. Al menos, si se da como bueno un modelo de Poisson para modelar esos conteos.

Lanzamientos de moneda: no es azar sino física

Lo dicen Diaconis y sus coautores en Dynamical Bias in the Coin Toss.

Que es un artículo en el que modelan la física de lanzamientos de moneda e incluso y llegan a construir una máquina con el aspecto

que siempre obtiene caras (o cruces).

El quid de la historia es que existen condiciones iniciales de lanzamiento (velocidad inicial, velocidad angular) isoresultado (donde resultado es cara o cruz). Como en

Las correlaciones positivas, ¿son transitivas?

No. Por ejemplo,

set.seed(155)
n <- 1000

x <- rnorm(n)
y <- x + rnorm(n)
z <- y - 1.5 * x

m <- cbind(x, y, z)

print(cor(m), digits = 2)
#      x    y     z
#x  1.00 0.72 -0.41
#y  0.72 1.00  0.34
#z -0.41 0.34  1.00

La correlación de x con y es positiva; también la de y con z. Pero x y z guardan correlación negativa.

Nota: sacado de aquí.

Un caso en el que falla la máxima verosimilitud

El caso es el siguiente: alguien hace la colada y al ir a tender, observa que los 11 primeros calcetines que saca de la lavadora son distintos. El problema consiste en estimar el número de pares de calcetines en la lavadora.

La solución por máxima verosimilitud es infinitos calcetines. En efecto, cuantos más calcetines hubiese en la lavadora, más probable es obtener 11 de ellos distintos. Y la respuesta es tremendamente insatisfactoria.

El z-score es una medida inadecuada de la perplejidad

Tenemos un dato y un valor de referencia. Por ejemplo, el valor predicho por uno modelo y el observado. Queremos medir la distancia entre ambos. ¿En qué unidades?

Antes de eso, incluso, ¿para qué queremos medir esa distancia? Esta es la pregunta fácil: para ver cómo encaja en el modelo propuesto, para ver cómo lo sorprende, para cuantificar la perplejidad.

Los estadísticos están acostumbrados a medir la perplejidad en unas unidades que solo ellos entienden, si es que las entienden: desviaciones estándar. El z-score de un residuo es el número de desviaciones estándar que lo separan de su estimación. Si es una, exclaman ¡bah!; si es dos, ¡oh!; si es tres, ¡oooh!; si es cuatro, ¡ooooooh, válgame Dios!, etc.

Martingalas, tiempos de parada y tuits cuasivirales

El otro día publiqué en Twitter un problema que copié de algún sitio (sinceramente, no recuerdo cuál),

que resultó megaviral en mi humilde tuitescala.

A ver si mañana tengo tiempo de ocuparme de lo triste que resulta que mi entorno de Twitter sea tan cafre como para haber desacertado tanto.

De nuevo, la falacia del fiscal (aplicada a fiscales que fenecen)

Cosas altamente improbables ocurren a diario. Es altamente improbable que no ocurran eventos altamente improbables.

A veces te ocurre un evento altamente improbable cerca de ti, como, por ejemplo, que el número de tu billete de lotería coincide con el que cantan el día 22 de diciembre unos niños en la tele. Y todo bien. A veces, van y se mueren un par de críos en el sitio donde trabajas y te empapelan malamente.

Probabilismo, probabilorismo y todas esas cosas

La teoría moderna de la decisión, con sus escenarios, recompensas, escenarios, probabilidades y consideraciones de orden sicológico, es cosa del siglo pasado. El principio de máxima verosimilidad también. Si se me apura, incluso, la teoría de la probabilidad propiamente construida.

Esos desarrollos opacan las discusiones previas, tal vez pueriles, al respecto. Pero húbolas.

No sé cómo, he tropezado con algunas. Como las que se discuten en los enlaces, este, este y este, que comparto.

Distribuciones hiperbólicas

    curve(-sqrt(x^2 + 1), -5, 5)

pinta una rama de hipérbola,

que, una vez exponenciada, i.e.,

    curve(exp(-sqrt(x^2 + 1)), -5, 5)

da

Es decir, una curva algo menos esbelta que la normal pero que bien podemos dividir por su integral para obtener la llamada distribución hiperbólica.

Tres notas sobre ella:

  • Tiene una historia curiosa. Fue considerada por Ralph Bagnold al estudiar la forma de las dunas y la sedimentación de la arena arrastrada por el viento. El logaritmo de sus curvas, se ve, tenía forma de hipérbola.
  • Lo cual os proporciona un exótico contraejemplo al argumento habitual sobre la naturaleza omniatractora de la normal.
  • La distribución hiperbólica (y sus extensiones) están disponibles en el paquete ghyp, motivado por aplicaciones financieras, como siempre. Esa gente es adicta a distribuciones con colas gruesas. Aunque para lo que les valen luego…

Sentir números, sentir probabilidades

En El hombre anúmerico, J.A. Paulos discute el problema de la visualización (e italizo para indicar que ver no es el fin sino el medio para interiorizar y sentir) números, particularmente, grandes números. Sobre los no excesivamente grandes escribe, p.e.,

To cite some happier illustrations for smaller numbers, the standard I use for the lowly thousand is a section of Veterans Stadium in Philadelphia which I know contains 1,008 seats and which is easy to picture. The north wall of a garage near my house contains almost exactly ten thousand narrow bricks. For one hundred thousand, I generally think of the number of words in a good-sized novel.

Calibración de probabilidades vía apuestas

Después de la remontada del F.C. Barcelona es muy de agradecer ver la publicación de artículos como Cómo de improbable era la remontada del Barcelona de Kiko Llaneras. En la misma entradilla, indica que [u]n modelo estadístico y las apuestas le daban el 7% de opciones. Un 7% viene a ser más o menos, dice correctamente, como sacar un 11 o un 12 en una tirada de dos dados.

La pregunta que podemos hacernos, de todos modos, es si las probabilidades estimadas por esos modelos estadísticos o las casas de apuestas están o no bien calibradas. Es decir, si, por ejemplo, el número de aciertos para eventos con una probabilidad asignada del alrededor del 0.25 es o no próximo al 25%.