Probabilidad

Probabilidad y estadística en los Ig Nobel de 2024

Los premios Ig Nobel de este año se han anunciado (y entregado) recientemente. Dos de ellos guardan cierta relación con el asunto de estas páginas:

  1. El de demografía ha recaído en Saul Justin Newman, de la universidad de Oxford, por mostrar cómo muchos de los casos de ultracentenarios (personas que viven hasta edades significativamente por encima de los cien) ocurren realmente en lugares donde la esperanza de vida no es particularmente alta, no hay certificados de nacimiento y abundan los errores administrativos y el fraude en las pensiones. De hecho, en esta entrevista afirma cosas tan entretenidas como que en Okinawa, el mejor predictor del lugar donde residen los ultracentenarios es que el registro civil del municipio en cuestión hubiese sido destruido por los bombardeos estadounidenses en la II Guerra Mundial.
  2. El de probabilidad, en un equipo de 50 investigadores por el artículo Fair coins tend to land on the same side they started: Evidence from 350,757 flips, cuyo título lo dice todo.

El artículo busca la confirmación de resultados anunciados por Persi Diaconis y sus coautores en un artículo que ya mencioné hace años aquí. Puede que a alguien le parezca ridículo e inaudito realizar un experimento consistente en lanzar monedas un total de 350757 veces; pero hay que recordar que el primer problema de estadística que conste documentalmente que se resolvió usando p-valores fue el de determinar si había sesgos en doce dados que se lanzaron 26306 veces allá en 1900 (véase esto).

Regresiones con discontinuidad y algunos otros asuntos

I.

A veces te tropiezas con algún conocido en algún sitio fuera de donde lo frecuentas y lo saludas con un “¿qué haces tú por aquí?”.

El otro día, leyendo sobre aquellos audaces emprendedores de siglos atrás que perseguían móviles perpetuos tropecé con William Petty, nada menos.

II.

Tomas varias fotos de un mismo motivo y las combinas (o apilas) usando distintas técnicas. Guillermo Luijk nos ilustra con lo que pasa cuando usas el mínimo, el máximo, la media y la mediana como funciones de agregación.

Alberto Olmos sobre los microfundamentos y cuatro asuntos más

I.

Juan Cambeiro escribe en Asterisk What Comes After COVID. El covid nos aburre y no nos interesa, pero el artículo es un ejercicio de “probabilidad aplicada” —en el que se estudia cuándo y qué causará la próxima pandemia, pero eso es casi lo de menos— del que muchos podrán sacar provecho.

II.

La mayor parte de los artículos en economía son inútiles; todos los involucrados lo saben. Fuera del primer cuartil, todo es esencialmente es una estafa que no sobreviviría una revisión crítica."

El "perspectivismo" en el debate sobre la naturaleza, objetiva o subjetiva, de la probabilidad

How probabilities came to be objective and subjective es un artículo que se resume así:

Entre 1837 y 1842, al menos seis matemáticos y filósofos, escribiendo en francés, inglés y alemán, y trabajando independientemente unos de otros, introdujeron distinciones entre dos tipos de probabilidad. Aunque los fundamentos, contenidos e implicaciones de estas distinciones diferían significativamente de autor a autor, todos giraban en torno a una distinción filosófica entre “probabilidades objetivas” y “subjetivas” que había surgido alrededor de 1840. Fue esta nueva distinción filosófica la que permitió a los probabilistas revisionistas concebir la posibilidad de “probabilidades objetivas”, lo cual habría sido un oxímoron para los probabilistas clásicos como Jakob Bernoulli y Pierre Simon Laplace.

Lo que se dice sobre los LETFs

Un LETF es un ETF con una L prefijada. La L significa leveraged, apalancado en español. A continuación escribiré sobre lo que distinta gente dice sobre ellos.

Lo que dicen quienes los comercializan

Los que los comercializan vienen a decir que un LETF duplica (los 2x) o triplica (los 3x) el rendimiento de un ETF (sin prefijo) sobre un mismo índice. Así, en el IBEX 35 hay un ETF que se llama Amundi IBEX 35 UCITS ETF Dist —y no muchos más— y un LETF que se llama Amundi IBEX 35 Doble Apalancado Diario (2x) UCITS ETF Acc.

Un truco probabilístico para balanceadores de carga

Tienes N servidores y un balanceador de carga. Las peticiones de trabajo llegan al balanceador y este las enruta hacia un servidor que se encarga de procesarlas. El objetivo del balanceador es tratar de conseguir un reparto más o menos uniforme de las tareas para que ningún servidor esté sobrecargado mientras otros permanecen ociosos. En términos probabilísticos, tratar de obtener una distribución uniforme (de la carga de trabajo).

Un mecanismo rudimentario de balanceo que parece que se usa por ahí es asignar las tareas al azar. Es simple y es en el fondo como muestreamos la distribución uniforme. Pero no todas las distribuciones uniformes son iguales. Por muchos motivos, son interesantes versiones de la distribución uniforme más uniformes; para convencerse de ello uno puede leer lo que Wikipedia cuenta sobre las sucesiones de Sobol o aquí sobre los ruidos azules. Con los balanceadores de carga pasa lo mismo. Así, al parecer, debe de ser una gran innovación hacer lo siguiente:

Probabilidad y banca

Traduzco y adapto un texto de Matt Levine (fuente), cuya relevancia para lo que aquí se suele tratar es más que evidente:

[…] el capital social de un banco, la participación de los accionistas, es solo una pequeña porción que descansa sobre un enorme iceberg de pasivos. En un banco conservador y rentable, podría haber 100€ de activos, 90€ de pasivos y, por lo tanto, 10€ de capital social. Los pasivos son ciertos y conocibles —cosas como depósitos, que deben pagarse al 100%—. Los activos son variables, tienen un riesgo y su valoración es un poco una suposición: incluye activos con precios sujetos a las variaciones del mercado, derivados extraños difíciles de valorar y préstamos comerciales con probabilidades inciertas de ser devueltos. El banco aplica algunas convenciones contables y hace algunas suposiciones para llegar a un valor de 100€ para sus activos. Pero ese número está rodeado de incertidumbre.

¿Cuántos ancestros tenemos realmente? ¿De dónde vienen?

Es oportuno revisar la entrada Where did your genetic ancestors come from?, que discute la cuestión de cuántos ancestros tenemos realmente (respuesta breve: muchos menos de los que nos hace creer la cuenta que echamos en la servilleta), su diversidad geográfica (posiblemente, mucho menor de la esperada), etc.

El quid de la cuestión radica en la distinción entre ancestros genealógicos y genéticos. Todos tenemos $2^n$ ancestros genealógicos —supuesto que no haya solapamientos— en nuestra $n$-ésima generación precedente, pero solo son propiamente ancestros genéticos una pequeña fracción de ellos (cuando $n$ es lo suficientemente grande). En concreto,

El "teorema" sobre las sumas de lognormales no es solo falso sino que, además, es innecesario (en muchos casos)

I.

Hace un tiempo, reproduje el enunciado del siguiente teorema:

La suma de lognormales (independientes y con parámetros similares) es lognormal.

El teorema no es cierto. No puede serlo tanto por motivos teóricos como meramente empíricos. Es fácil

  1. tomar 3000 muestras de una lognormal con parámetros cualesquiera,
  2. sumarlos por tríos para obtener 1000 muestras $x_i$ de su suma,
  3. ajustar la mejor lognormal que se ajusta a ellos (pista: si se usa MV, los parámetros ajustados son la media y la desviación estándar de $\log x_i$),
  4. comparar las dos muestras (p.e., vía qqplots).

II.

Pero sí que es cierto que:

"Goals based investment" (y su relación con la modelización probabilística)

El motivo para hablar del goals based investment —GBI en lo que sigue— aquí hoy tiene que ver, como se comprobará más abajo, con su relación con la modelización probabilística, la optimización, etc. Se trata de una aproximación a la gestión de las inversiones muy de moda en la banca privada, pero que plantea problemas matemáticos y computacionales entretenidos. Y que, desde luego, no pueden resolverse —al menos, bien— con Excel.

¿Qué distribución usar? ¡Examina el proceso generativo!

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala.

La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión. Así, usamos la distribución normal porque sabemos que la agregación de pequeños errores etc.; o la Poisson porque tenemos una población muy grande cuyos sujetos tiran monedas al aire etc.; etc.

Otra forma de llegar a la distribución normal

¿Cómo llegamos a la distribución normal? Típicamente, por aplicación —implícita, explícita, rutinaria o litúrgica— del teorema central del límite: una variable aleatoria es normal porque la creemos consecuencia de pequeñas perturbaciones independientes.

Pero hay otra vía.

Supongamos que tenemos tres —o, para el caso, $n > 1$— variables aleatorias continuas independientes con la misma distribución. Su densidad, por tanto, puede factorizarse así:

$$f(x_1, x_2, x_3) = f(x_1) f(x_2) f(x_3).$$

Supongamos además que $f(x_1, x_2, x_3)$ depende solo de $x_1^2 + x_2^2 + x_3^2$, la distancia al origen. De otro modo, que