Probabilidad

No. Por ejemplo, set.seed(155) n <- 1000 x <- rnorm(n) y <- x + rnorm(n) z <- y - 1.5 * x m <- cbind(x, y, z) print(cor(m), digits = 2) # x y z #x 1.00 0.72 -0.41 #y 0.72 1.00 0.34 #z -0.41 0.34 1.00 La correlación de x con y es positiva; también la de y con z. Pero x y z guardan correlación negativa. Nota: sacado de aquí.

El caso es el siguiente: alguien hace la colada y al ir a tender, observa que los 11 primeros calcetines que saca de la lavadora son distintos. El problema consiste en estimar el número de pares de calcetines en la lavadora. La solución por máxima verosimilitud es infinitos calcetines. En efecto, cuantos más calcetines hubiese en la lavadora, más probable es obtener 11 de ellos distintos. Y la respuesta es tremendamente insatisfactoria.

Estos días, haciendo limpieza de cajones, estanterías y directorios, he dado con un documentito que se me quedó accidentalmente pegado al disco duro hace muchos, muchos años. Es la documentación metodológica y técnica, firmada por una consultora de postín, de los algoritmos de cálculo de la probabilidad de impago en una de esas entidades financieras que quebraron en su día con enorme estrépito (y perjuicio para el erario público, sea dicho de paso).

Tenemos un dato y un valor de referencia. Por ejemplo, el valor predicho por uno modelo y el observado. Queremos medir la distancia entre ambos. ¿En qué unidades? Antes de eso, incluso, ¿para qué queremos medir esa distancia? Esta es la pregunta fácil: para ver cómo encaja en el modelo propuesto, para ver cómo lo sorprende, para cuantificar la perplejidad. Los estadísticos están acostumbrados a medir la perplejidad en unas unidades que solo ellos entienden, si es que las entienden: desviaciones estándar.

El otro día publiqué en Twitter un problema que copié de algún sitio (sinceramente, no recuerdo cuál), En un país hipotético, las familias tienen críos hasta que nace el primer varón. En un año, en promedio, nacen: — Carlos Gil Bellosta (@gilbellosta) December 10, 2017 que resultó megaviral en mi humilde tuitescala. A ver si mañana tengo tiempo de ocuparme de lo triste que resulta que mi entorno de Twitter sea tan cafre como para haber desacertado tanto.

He usado el vídeo en un curso de estadística básica para ilustrar a través de experimentos se construyen histogramas y estos convergen a y, en última instancia, justifican el uso de distribuciones de probabilidad. Es decir, experimentos -> histogramas -> funciones de distribución. Y de ahí, el resto. Pero de todos los vídeos más o menos equivalentes que describen el mismo experimento, me atrajo este en particular por lo que ocurre alrededor del minuto 1:32.

En El hombre anúmerico, J.A. Paulos discute el problema de la visualización (e italizo para indicar que ver no es el fin sino el medio para interiorizar y sentir) números, particularmente, grandes números. Sobre los no excesivamente grandes escribe, p.e., To cite some happier illustrations for smaller numbers, the standard I use for the lowly thousand is a section of Veterans Stadium in Philadelphia which I know contains 1,008 seats and which is easy to picture.

Después de la remontada del F.C. Barcelona es muy de agradecer ver la publicación de artículos como Cómo de improbable era la remontada del Barcelona de Kiko Llaneras. En la misma entradilla, indica que [u]n modelo estadístico y las apuestas le daban el 7% de opciones. Un 7% viene a ser más o menos, dice correctamente, como sacar un 11 o un 12 en una tirada de dos dados. La pregunta que podemos hacernos, de todos modos, es si las probabilidades estimadas por esos modelos estadísticos o las casas de apuestas están o no bien calibradas.

Voy a explicar aquí lo que he aprendido recientemente sobre t-SNE, una técnica para reducir la dimensionalidad de conjuntos de datos. Es una alternativa moderna a MDS o PCA. Partimos de puntos $latex x_1, \dots, x_n$ y buscamos otros $latex y_1, \dots, y_n$ en un espacio de menor dimensión. Para ello construiremos primero $latex n$ distribuciones de probabilidad, $latex p_i$ sobre los enteros $latex 1, \dots, n$ de forma que

Estimados señores: Llevo 10 años revisando sus "CAJAS DE 100 CERILLAS" En 3409 ocasiones he contado 99 o 101 😨 ¿ESTÁN USTEDES LOCOS? 😠 pic.twitter.com/hyqI9Ncxqg — ☢ RadiactivoMan ☢ (@RadiactivoMan) February 16, 2017 Esta entrada, obviamente, viene a cuento de esta otra.

Tomemos dos variables aleatorias independientes y positivas, set.seed(123) n <- 100 x <- runif(n) + 0.5 y <- runif(n) + 0.5 No tengo ni que decir que su correlación es prácticamente cero, cor(x,y) #-0.0872707 y que en su diagrama de dispersión tampoco vamos a poder leer otra cosa: Ahora generamos otra variable independiente de las anteriores, z <- runif(n) + 0.5 y calculamos el cociente de las primeras con respecto a esta:

Leía ¿Es muy difícil (estadísticamente) no dar ni una?, donde se discute la probabilidad de que $latex s(i) \neq i$ $latex \forall i$ cuando $latex s$ es una permutación. El problema está relacionado, como podrá ver quien visite el enlace, con la probabilidad de repetición del sorteo en el juego del amigo invisible. Esta probabilidad converge, al crecer $latex n$, a $latex 1/e \approx 0.367879$. ¡0.367879! Eso es… eso es… ¡1 - .

Me acusan (quien lo hizo, si me lee, sabrá identificarse) de repetirme, de contar una historia dos, y sino me paran los pies, tres y más veces. Ya me pasó una vez por aquí. Espero que no me esté volviendo a suceder hoy porque habría jurado haber mencionado este asunto antes. Es el de la estimación de la probabilidad de eventos todavía no observados. Traduzco y (como no rectoreo universidad pública alguna y, por ende, no puedo permitirme el lujo de copiar sin citar) luego diré de donde:

Probabilidad

Las correlaciones positivas, ¿son transitivas?

Un caso en el que falla la máxima verosimilitud

¿Lo publico y nos echamos unas risas todos?

El z-score es una medida inadecuada de la perplejidad

Martingalas, tiempos de parada y tuits cuasivirales

Estadística(s) y el dedo de Dios

Sentir números, sentir probabilidades

Calibración de probabilidades vía apuestas

Reducción de la dimensionalidad con t-SNE

Otro ejemplo de infradispersión de conteos

La inesperada correlación de los ratios

1/e por doquier

La regla del tres (para estimar la probabilidad de un evento todavía no observado)