Probabilidad

El Elo: prácticamente una regresión logística entrenada en línea

Los jugadores $A$ y $B$ se enfrentan al ajedrez. El Elo de A y B son dos números $E_A$ y $E_B$ tales que la probabilidad de que $A$ gane la partida a $B$ es

$$P(A-B) = \frac{1}{1 + 10^{(E_B - E_A) / 400}} = \frac{1}{1 + \exp(-k(E_A - E_B))}$$

para un determinado valor de $k$ que no me voy a molestar en calcular.

Omitiendo la complicación de que las partidas de ajedrez pueden terminar en tablas, podríamos entender el Elo como —prácticamente— los coeficientes de una regresión logística ajustada sobre unos datos, un histórico de partidas de ajedrez, con una matriz de diseño muy particular:

El "perspectivismo" en el debate sobre la naturaleza, objetiva o subjetiva, de la probabilidad

How probabilities came to be objective and subjective es un artículo que se resume así:

Entre 1837 y 1842, al menos seis matemáticos y filósofos, escribiendo en francés, inglés y alemán, y trabajando independientemente unos de otros, introdujeron distinciones entre dos tipos de probabilidad. Aunque los fundamentos, contenidos e implicaciones de estas distinciones diferían significativamente de autor a autor, todos giraban en torno a una distinción filosófica entre “probabilidades objetivas” y “subjetivas” que había surgido alrededor de 1840. Fue esta nueva distinción filosófica la que permitió a los probabilistas revisionistas concebir la posibilidad de “probabilidades objetivas”, lo cual habría sido un oxímoron para los probabilistas clásicos como Jakob Bernoulli y Pierre Simon Laplace.

¿Cuántos ancestros tenemos realmente? ¿De dónde vienen?

Es oportuno revisar la entrada Where did your genetic ancestors come from?, que discute la cuestión de cuántos ancestros tenemos realmente (respuesta breve: muchos menos de los que nos hace creer la cuenta que echamos en la servilleta), su diversidad geográfica (posiblemente, mucho menor de la esperada), etc.

El quid de la cuestión radica en la distinción entre ancestros genealógicos y genéticos. Todos tenemos $2^n$ ancestros genealógicos —supuesto que no haya solapamientos— en nuestra $n$-ésima generación precedente, pero solo son propiamente ancestros genéticos una pequeña fracción de ellos (cuando $n$ es lo suficientemente grande). En concreto,

En defensa del futuro del subjuntivo

Compárense las tres frases:

  1. Quien llegue primero a meta recibirá…
  2. Quien durante la carrera caiga al río…
  3. Quien durante la carrera cayere al río…

Las dos primeras son fácilmente comprensibles por el lector de hoy en día. Pero existe una sutil diferencia entre ambas:

  • En la primera, se da prácticamente por seguro que alguien llegará a meta. Debería suceder una catástrofe (¿que todos los participantes se precipitasen en el río?) para que ninguno llegue a meta.
  • En la segunda se atiende una circunstancia hipotética: puede que alguien caiga al río, pero es bastante probable que no le suceda a nadie.

Ese matiz —relacionadísimo con la incertidumbre— es el que recoge la tercera frase si se da por bueno lo que cuentan las gramáticas viejunas. Indica lo que habrá de suceder en el improbable y no necesario caso de que alguien caiga al río.

El "teorema" sobre las sumas de lognormales no es solo falso sino que, además, es innecesario (en muchos casos)

I.

Hace un tiempo, reproduje el enunciado del siguiente teorema:

La suma de lognormales (independientes y con parámetros similares) es lognormal.

El teorema no es cierto. No puede serlo tanto por motivos teóricos como meramente empíricos. Es fácil

  1. tomar 3000 muestras de una lognormal con parámetros cualesquiera,
  2. sumarlos por tríos para obtener 1000 muestras $x_i$ de su suma,
  3. ajustar la mejor lognormal que se ajusta a ellos (pista: si se usa MV, los parámetros ajustados son la media y la desviación estándar de $\log x_i$),
  4. comparar las dos muestras (p.e., vía qqplots).

II.

Pero sí que es cierto que:

[Super]forecasting

I.

Dedicarse a hacer predicciones —es decir, estimar las probabilidades de ocurrencia de eventos futuros— por hobby es un entretenimiento tan digno como cualquier otro. Además, hoy en día existen plataformas (como esta, esta, esta, esta o esta) donde poner a prueba las habilidades propias e, incluso, llegar a monetizarlas. Es un mundo en el que ponderé introducirme en su día para hacer más llevaderas las pesadumbres de la existencia; al fin y al cabo, las habilidades que exige —un conocimiento somero de la teoría de la probabilidad, sentido común y curiosidad y diligencia para documentarse sobre temas variopintos— no me son del todo ajenos. Lo descarté finalmente por tres motivos:

"Goals based investment" (y su relación con la modelización probabilística)

El motivo para hablar del goals based investment —GBI en lo que sigue— aquí hoy tiene que ver, como se comprobará más abajo, con su relación con la modelización probabilística, la optimización, etc. Se trata de una aproximación a la gestión de las inversiones muy de moda en la banca privada, pero que plantea problemas matemáticos y computacionales entretenidos. Y que, desde luego, no pueden resolverse —al menos, bien— con Excel.

¿Qué distribución usar? ¡Examina el proceso generativo!

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala.

La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión. Así, usamos la distribución normal porque sabemos que la agregación de pequeños errores etc.; o la Poisson porque tenemos una población muy grande cuyos sujetos tiran monedas al aire etc.; etc.

Kant: probabilidad y apuestas

Hace tres años mencioné la definición de probabilidad que Savage inculcó en su prole:

My father, Leonard Jimmie Savage, was an early advocate of subjective probability. He encouraged me from a young age to think of the probability of an event as the amount I would pay for a gamble that would pay $100 if the event occurred.

Sam Savage, 2004 (fuente)

Pero hay (!por supuesto!) antecedentes. Kant, en su Crítica de la Razón Pura, escribe (con mi subrayado):

Otra forma de llegar a la distribución normal

¿Cómo llegamos a la distribución normal? Típicamente, por aplicación —implícita, explícita, rutinaria o litúrgica— del teorema central del límite: una variable aleatoria es normal porque la creemos consecuencia de pequeñas perturbaciones independientes.

Pero hay otra vía.

Supongamos que tenemos tres —o, para el caso, $n > 1$— variables aleatorias continuas independientes con la misma distribución. Su densidad, por tanto, puede factorizarse así:

$$f(x_1, x_2, x_3) = f(x_1) f(x_2) f(x_3).$$

Supongamos además que $f(x_1, x_2, x_3)$ depende solo de $x_1^2 + x_2^2 + x_3^2$, la distancia al origen. De otro modo, que

Aristóteles sobre lo probable y lo improbable (y, más concretamente, sobre la frecuencia de eventos muy improbables)

Un pasaje de un libro que no viene a cuento me puso sobre la pista de una cita de Aristóteles (Retórica, Libro II, Cap. 24), que dice así:

[…] también en los retóricos hay un entimema espurio que se basa en lo que es probable pero no en general, sino probable en determinada circunstancia. Pero ésta no será universal, como lo que dice Agatón:

Quizá alguien diría que eso mismo es probable, que a los mortales les ocurren muchas cosas improbables.

¿Por qué son los eventos (en probabilidad) conjuntos y no otra cosa?

I. Tidyverse (como ejemplo a no seguir)

Uno de los grandes problemas del tidyverse en R es que para él, todo son tablas. Existe solo una manera de agrupar información: las tablas. Fuera de ese estrecho marco, existen otras estructuras de datos: árboles, listas, diccionarios, tablas hash, vectores, tuplas, listas linkadas, listas doblemente linkadas, etc. Todo aquello, en definitiva, que en otros lenguajes de programación se explica en el capítulo “Colecciones” del manual.