Probabilidad

Los extraños números de los muertos en carretera por accidente

Escribo esta entrada con cierta prevención porque soy consciente de que dan pábulo a determinadas teorías conspiranoicas de las que soy declarado enemigo. Pero es que los números de muertos en carretera por accidente en España en los últimos años, (extraídos de aquí) dan que pensar: la varianza de las observaciones correspondientes a los años 2013, 2014 y 2015 es muy baja, demasiado baja. Al menos, si se da como bueno un modelo de Poisson para modelar esos conteos.

Lanzamientos de moneda: no es azar sino física

Lo dicen Diaconis y sus coautores en Dynamical Bias in the Coin Toss. Que es un artículo en el que modelan la física de lanzamientos de moneda e incluso y llegan a construir una máquina con el aspecto que siempre obtiene caras (o cruces). El quid de la historia es que existen condiciones iniciales de lanzamiento (velocidad inicial, velocidad angular) isoresultado (donde resultado es cara o cruz). Como en Es decir, si se tira una moneda primero y se obtiene cruz, tirándola otra vez ligeramente más despacio aunque con una rotación ligeramente más rápida (donde ambas velocidades guardan una determinada relación funcional), se vuelve a obtener cruz necesariamente.

Las correlaciones positivas, ¿son transitivas?

No. Por ejemplo, set.seed(155) n <- 1000 x <- rnorm(n) y <- x + rnorm(n) z <- y - 1.5 * x m <- cbind(x, y, z) print(cor(m), digits = 2) # x y z #x 1.00 0.72 -0.41 #y 0.72 1.00 0.34 #z -0.41 0.34 1.00 La correlación de x con y es positiva; también la de y con z. Pero x y z guardan correlación negativa. Nota: sacado de aquí.

Un caso en el que falla la máxima verosimilitud

El caso es el siguiente: alguien hace la colada y al ir a tender, observa que los 11 primeros calcetines que saca de la lavadora son distintos. El problema consiste en estimar el número de pares de calcetines en la lavadora. La solución por máxima verosimilitud es infinitos calcetines. En efecto, cuantos más calcetines hubiese en la lavadora, más probable es obtener 11 de ellos distintos. Y la respuesta es tremendamente insatisfactoria.

El z-score es una medida inadecuada de la perplejidad

Tenemos un dato y un valor de referencia. Por ejemplo, el valor predicho por uno modelo y el observado. Queremos medir la distancia entre ambos. ¿En qué unidades? Antes de eso, incluso, ¿para qué queremos medir esa distancia? Esta es la pregunta fácil: para ver cómo encaja en el modelo propuesto, para ver cómo lo sorprende, para cuantificar la perplejidad. Los estadísticos están acostumbrados a medir la perplejidad en unas unidades que solo ellos entienden, si es que las entienden: desviaciones estándar.

Martingalas, tiempos de parada y tuits cuasivirales

El otro día publiqué en Twitter un problema que copié de algún sitio (sinceramente, no recuerdo cuál), En un país hipotético, las familias tienen críos hasta que nace el primer varón. En un año, en promedio, nacen: — Carlos Gil Bellosta (@gilbellosta) December 10, 2017 que resultó megaviral en mi humilde tuitescala. A ver si mañana tengo tiempo de ocuparme de lo triste que resulta que mi entorno de Twitter sea tan cafre como para haber desacertado tanto.

De nuevo, la falacia del fiscal (aplicada a fiscales que fenecen)

Cosas altamente improbables ocurren a diario. Es altamente improbable que no ocurran eventos altamente improbables. A veces te ocurre un evento altamente improbable cerca de ti, como, por ejemplo, que el número de tu billete de lotería coincide con el que cantan el día 22 de diciembre unos niños en la tele. Y todo bien. A veces, van y se mueren un par de críos en el sitio donde trabajas y te empapelan malamente.

Probabilismo, probabilorismo y todas esas cosas

La teoría moderna de la decisión, con sus escenarios, recompensas, escenarios, probabilidades y consideraciones de orden sicológico, es cosa del siglo pasado. El principio de máxima verosimilidad también. Si se me apura, incluso, la teoría de la probabilidad propiamente construida. Esos desarrollos opacan las discusiones previas, tal vez pueriles, al respecto. Pero húbolas. No sé cómo, he tropezado con algunas. Como las que se discuten en los enlaces, este, este y este, que comparto.

Distribuciones hiperbólicas

curve(-sqrt(x^2 + 1), -5, 5) pinta una rama de hipérbola, que, una vez exponenciada, i.e., curve(exp(-sqrt(x^2 + 1)), -5, 5) da Es decir, una curva algo menos esbelta que la normal pero que bien podemos dividir por su integral para obtener la llamada distribución hiperbólica. Tres notas sobre ella: Tiene una historia curiosa. Fue considerada por Ralph Bagnold al estudiar la forma de las dunas y la sedimentación de la arena arrastrada por el viento.

Sentir números, sentir probabilidades

En El hombre anúmerico, J.A. Paulos discute el problema de la visualización (e italizo para indicar que ver no es el fin sino el medio para interiorizar y sentir) números, particularmente, grandes números. Sobre los no excesivamente grandes escribe, p.e., To cite some happier illustrations for smaller numbers, the standard I use for the lowly thousand is a section of Veterans Stadium in Philadelphia which I know contains 1,008 seats and which is easy to picture.

Calibración de probabilidades vía apuestas

Después de la remontada del F.C. Barcelona es muy de agradecer ver la publicación de artículos como Cómo de improbable era la remontada del Barcelona de Kiko Llaneras. En la misma entradilla, indica que [u]n modelo estadístico y las apuestas le daban el 7% de opciones. Un 7% viene a ser más o menos, dice correctamente, como sacar un 11 o un 12 en una tirada de dos dados. La pregunta que podemos hacernos, de todos modos, es si las probabilidades estimadas por esos modelos estadísticos o las casas de apuestas están o no bien calibradas.

Reducción de la dimensionalidad con t-SNE

Voy a explicar aquí lo que he aprendido recientemente sobre t-SNE, una técnica para reducir la dimensionalidad de conjuntos de datos. Es una alternativa moderna a MDS o PCA. Partimos de puntos $latex x_1, \dots, x_n$ y buscamos otros $latex y_1, \dots, y_n$ en un espacio de menor dimensión. Para ello construiremos primero $latex n$ distribuciones de probabilidad, $latex p_i$ sobre los enteros $latex 1, \dots, n$ de forma que