Probabilidad

He escrito ya alguna vez sobre esa especie de que la incertidumbre y el azar no existen en el mundo. Que esos conceptos —junto con la teoría de la probabilidad que los sistematiza— son solo una construcción de la mente y existen solamente en ella. Que si no fuésemos tan perezosos, podríamos recopilar todas las causas y deducir con precisión milimétrica el futuro (como hacen Diaconis y compañía en el artículo que traté aquí con los lanzamientos de monedas), y advertiríamos que en el mundo real solo hay certidumbres. Etc.

Existen subculturas contemporáneas en las que se consiguen puntos de status pasándose determinados videojuegos a la mayor velocidad posible y publicando esas hazañas lúdicas en Youtube.

Un tal dream estableció algunos récords en 2020 en cierta modalidad de Minecraft, pero no sin levantar ciertas sospechas: aparentemente, el juego contiene cierto componente aleatorio y a dream parecía sonreirle la fortuna muy por encima de lo estadísticamente esperable. Así que los supertacañones del Minecraft Speedrunning Team analizaron el asunto y emitieron un informe sobre el asunto en diciembre de 2020.

Hay muchas versiones alternativas del problema de Monty Hall y he hablado de algunas de ellas antes. Una bastante interesante de la que supe por esto es la siguiente:

Participas en el problema de Monty Hall (el clásico con un coche y dos cabras).
Pero tú sabes (y nadie más) que una de las cabras se ha tragado un diamante carísimo y lo tiene en el estómago. Vale mucho más que el coche.
Obviamente, prefieres la cabra al coche.
Eliges una puerta (y no la abres).
El presentador (que no sabe nada del diamante) abre una puerta (detrás de la cual hay una cabra, como en el problema de Monty Hall original).
Sabes que esa cabra no es la del diamante.
El presentador te ofrece cambiar la puerta que habías elegido previamente.

¿Qué haces?

Los jugadores $A$ y $B$ se enfrentan al ajedrez. El Elo de A y B son dos números $E_A$ y $E_B$ tales que la probabilidad de que $A$ gane la partida a $B$ es

$$P(A-B) = \frac{1}{1 + 10^{(E_B - E_A) / 400}} = \frac{1}{1 + \exp(-k(E_A - E_B))}$$

para un determinado valor de $k$ que no me voy a molestar en calcular.

Omitiendo la complicación de que las partidas de ajedrez pueden terminar en tablas, podríamos entender el Elo como —prácticamente— los coeficientes de una regresión logística ajustada sobre unos datos, un histórico de partidas de ajedrez, con una matriz de diseño muy particular:

How probabilities came to be objective and subjective es un artículo que se resume así:

Entre 1837 y 1842, al menos seis matemáticos y filósofos, escribiendo en francés, inglés y alemán, y trabajando independientemente unos de otros, introdujeron distinciones entre dos tipos de probabilidad. Aunque los fundamentos, contenidos e implicaciones de estas distinciones diferían significativamente de autor a autor, todos giraban en torno a una distinción filosófica entre “probabilidades objetivas” y “subjetivas” que había surgido alrededor de 1840. Fue esta nueva distinción filosófica la que permitió a los probabilistas revisionistas concebir la posibilidad de “probabilidades objetivas”, lo cual habría sido un oxímoron para los probabilistas clásicos como Jakob Bernoulli y Pierre Simon Laplace.

Tienes N servidores y un balanceador de carga. Las peticiones de trabajo llegan al balanceador y este las enruta hacia un servidor que se encarga de procesarlas. El objetivo del balanceador es tratar de conseguir un reparto más o menos uniforme de las tareas para que ningún servidor esté sobrecargado mientras otros permanecen ociosos. En términos probabilísticos, tratar de obtener una distribución uniforme (de la carga de trabajo).

Un mecanismo rudimentario de balanceo que parece que se usa por ahí es asignar las tareas al azar. Es simple y es en el fondo como muestreamos la distribución uniforme. Pero no todas las distribuciones uniformes son iguales. Por muchos motivos, son interesantes versiones de la distribución uniforme más uniformes; para convencerse de ello uno puede leer lo que Wikipedia cuenta sobre las sucesiones de Sobol o aquí sobre los ruidos azules. Con los balanceadores de carga pasa lo mismo. Así, al parecer, debe de ser una gran innovación hacer lo siguiente:

Es oportuno revisar la entrada Where did your genetic ancestors come from?, que discute la cuestión de cuántos ancestros tenemos realmente (respuesta breve: muchos menos de los que nos hace creer la cuenta que echamos en la servilleta), su diversidad geográfica (posiblemente, mucho menor de la esperada), etc.

El quid de la cuestión radica en la distinción entre ancestros genealógicos y genéticos. Todos tenemos $2^n$ ancestros genealógicos —supuesto que no haya solapamientos— en nuestra $n$-ésima generación precedente, pero solo son propiamente ancestros genéticos una pequeña fracción de ellos (cuando $n$ es lo suficientemente grande). En concreto,

Recomiendo a mis lectores pasar un rato con ChatGPT alrededor de la siguiente pregunta:

What is a probabilistic data structure?

Solo cabe aprender muchas cosas y todas buenas.

Compárense las tres frases:

Quien llegue primero a meta recibirá…
Quien durante la carrera caiga al río…
Quien durante la carrera cayere al río…

Las dos primeras son fácilmente comprensibles por el lector de hoy en día. Pero existe una sutil diferencia entre ambas:

En la primera, se da prácticamente por seguro que alguien llegará a meta. Debería suceder una catástrofe (¿que todos los participantes se precipitasen en el río?) para que ninguno llegue a meta.
En la segunda se atiende una circunstancia hipotética: puede que alguien caiga al río, pero es bastante probable que no le suceda a nadie.

Ese matiz —relacionadísimo con la incertidumbre— es el que recoge la tercera frase si se da por bueno lo que cuentan las gramáticas viejunas. Indica lo que habrá de suceder en el improbable y no necesario caso de que alguien caiga al río.

I.

Hace un tiempo, reproduje el enunciado del siguiente teorema:

La suma de lognormales (independientes y con parámetros similares) es lognormal.

El teorema no es cierto. No puede serlo tanto por motivos teóricos como meramente empíricos. Es fácil

tomar 3000 muestras de una lognormal con parámetros cualesquiera,
sumarlos por tríos para obtener 1000 muestras $x_i$ de su suma,
ajustar la mejor lognormal que se ajusta a ellos (pista: si se usa MV, los parámetros ajustados son la media y la desviación estándar de $\log x_i$),
comparar las dos muestras (p.e., vía qqplots).

II.

Pero sí que es cierto que:

Probabilidad

Si la incertidumbre existe solamente en la mente, entonces, ¿por qué...?

Análisis estadístico de un "speedrun" sospechoso

Una variante del problema de Monty Hall

El Elo: prácticamente una regresión logística entrenada en línea

El "perspectivismo" en el debate sobre la naturaleza, objetiva o subjetiva, de la probabilidad

Un truco probabilístico para balanceadores de carga

¿Cuántos ancestros tenemos realmente? ¿De dónde vienen?

Estructuras de datos probabilísticas

En defensa del futuro del subjuntivo

El "teorema" sobre las sumas de lognormales no es solo falso sino que, además, es innecesario (en muchos casos)

I.

II.