Estadística

Una justificación desapasionada del promedio como mecanismo para agregar predicciones

Existe incertidumbre sobre el resultado, 0 o 1, de un evento de interés $X$. Se convoca a $n$ expertos que hacen predicciones $p_1, \dots, p_n$ sobre dicho evento, i.e., el experto $i$ considera que $P(X = 1) = p_i$. Entonces, ¿cómo se pueden combinar las predicciones $p_i$ para obtener una predicción conjunta $p$?

Uno pensaría que el promedio, $p = \frac{1}{n} \sum_i p_i$, es una opción razonable. En la literatura se discuten también generalizaciones del tipo $p = \sum_i w_i p_i$ para pesos $w_i$ que suman 1. Sin embargo, en sitios como este se sugiere usar la media geométrica de los odds (o, equivalentemente, la aritmética de los log ods), es decir, calcular los log odds,

Bajo hipótesis razonables, hacen falta 16 veces más observaciones para estimar una interacción que para estimar un efecto principal

Uno de los grandes temas de estas páginas es que el efecto principal de un tratamiento es un indicador demasiado burdo. Casi siempre queremos ver ese efecto propiamente desglosado: a unos sujetos les afecta más, a otro menos.

Para lograr ese objetivo, hay que estudiar cómo interactúa el efecto con otras variables (p.e., sexo). Desafortunadamente, cuanto mayor es el grado de desglose, más incertidumbre existe sobre las estimaciones; a la inversa, para lograr una mayor precisión en las estimaciones, hace falta incrementar el tamaño muestral. Pero, ¿cuánto?

Sobre el modelo beta-binomial con "deriva"

Planteamiento del problema

El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.

Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: ¿los datos de hace tres años, siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?

Sobre la verosimilitud de distribuciones "compuestas"

Si tenemos una distribución continua (que depende de un parámetro $\alpha$) $f_\alpha$ y una muestra blablablá $x_1, \dots, x_n$, la verosimilitud asociada es

$$\prod_{i = 1}^n f_\alpha(x_i).$$

Si tenemos una distribución discreta (que depende de un parámetro $\beta$) $p_\beta$ y una muestra blablablá $y_1, \dots, y_m$, la verosimilitud asociada es

$$\prod_{i = 1}^m p_\beta(y_i).$$

Pero si tenemos una mezcla de distribuciones, una continua $f_\alpha$ y una discreta $p_\beta$ y una muestra blablablá $x_1, \dots, x_n, y_1, \dots, y_m$, ¿la verosimilitud asociada sigue siendo

La paradoja (de Simpson) detrás de ciertos argumentos en pro de una subida generalizada de salarios

Trae El Confidencial un artículo de Javier Jorrín —según Jesús Fernández-Villaverde, el mejor periodista económico ahora mismo en España—, titulado La mejora de la productividad permitirá a las empresas prolongar la subida de salarios. El artículo se resume en tres enunciados que, así, en frío, según se verá, son contradictorios:

  1. Ha aumentado la productividad (PIB por hora trabajadda) en España.
  2. Eso da margen para que suban los salarios.
  3. El incremento de la productividad se debe a que ganan peso los sectores económicos más productivos.

La problemática relación entre (1) y (2) se la dejo a los economistas. Se pueden elaborar experimentos mentales en los que (2) se sigue de (1) y otros en los que no. Evaluar su pertinencia no es materia de estas páginas.

¿A quién crees que van a votar tus vecinos?

La historia, telegráficamente, es así:

  1. Hubo unas elecciones hace unos pocos días en EEUU.
  2. Existieron las concomintantes encuestas, predicciones y… mercados de apuestas.
  3. De entre los últimos, Polymarket se destacó por asignar unas probabilidades de victoria a Trump muy superiores a las del bendito consenso.
  4. Hubo gente muy sabida que criticó mucho a Polymarket. El argumento principal era:
    1. En Polymarket se juega con dinero.
    2. La gente rica tiende a tener más querencia por Trump.
    3. La gente rica tiende a tener más querencia por los mercados, las apuestas, etc.
    4. La gente rica que apoya a Trump está sobrerrepresentada entre los usuarios de Polymarket —a diferencia de lo que ocurre, por ejemplo, en Metaculus— y eso sesga el mercado.
  5. Se supo que un solo inversor había realizado pujas muy elevadas en Polymarket.
  6. Incluso se especuló si ese inversor era realmente Elon Musk (y que intervenía en él para influir maliciosamente en el proceso electoral).
  7. Este inversor ha acabado ganando bastante dinero (unas cuantas decenas de millones de euros) con sus apuestas.

Se ha sabido, no obstante, que el inversor en cuestión es un tal Théo, de Francia.

Los estadísticos, hasta cierto momento, no hicieron más que interpretar de diversos modos el mundo; luego, cuando quisieron transformarlo, se encontraron con una serie de problemas que no anticiparon

A veces los estadísticos analizan datos. Desde afuera de mundo, dan su visión sobre hechos pasados. Fin de la historia.

Desde cierto tiempo para acá, a los estadísticos (y colegas de profesiones anejas) se les piden no solo interpretaciones sobre el mundo sino, también, predicciones, consejos, ingredientes para la toma de ciertas decisiones, etc. Eso los inserta hasta las zancas en el mundo. Esas predicciones que hacen, operan sobre el mundo del que se extrajeron los datos y, al hacerlo, lo alteran. Como consecuencia, esas predicciones contienen un germen de contradicción; alguien puede querer leer esto al respecto.

Interpretación de modelos: el elefante en el salón

Hay mucha teoría sobre interpretación de modelos (estadísticos, de machine learning y, ahora, de deep learning). Hay muchos métodos y herramientas para ello; de algunas he hablado en el pasado por aquí. Hay también, mucha demanda de ello, en gran medida por motivos legales y regulatorios. Pero en toda la literatura al respecto apenas nadie se toma la molestia de advertir que hay un elefante en el salón.

Este elefante tiene que ver con la imposibilidad material de la tarea en cuestión. Todo lo que se hace, como se discutirá a continuación, es aplicar meros paños calientes, hacer como que se hace, pero evadiendo el meollo (de cuatro toneladas, grandes orejas y trompa descomunal).

Exigencias aisladas de rigor (estadístico)

I.

Puede que alguien no conozca todavía el concepto de exigencias aisladas de rigor (estadístico). Lo introdujo y describió Scott Alexander aquí.

Usufructo y resumo el ejemplo con el que lo introduce:

  1. Heráclito decía aquello de que uno no puede bañarse dos veces en el mismo río (porque el agua ya no es la misma, etc.)
  2. Heráclito tenía unas vacas.
  3. Un señor se las roba.
  4. Heráclito las reclama.
  5. El señor le dice que las vacas que eran suyas (de Heráclito) ya no existen; que las que dizque ha robado eran otras distintas que andaban solas por ahí, que las encontró y se las llevó a su casa.

No sabemos hasta dónde pudo llegar el rigor filosófico y la coherencia de Heráclito. La fabulilla anterior da a entender que, probablemente, no demasiado lejos.

Probabilidad y estadística en los Ig Nobel de 2024

Los premios Ig Nobel de este año se han anunciado (y entregado) recientemente. Dos de ellos guardan cierta relación con el asunto de estas páginas:

  1. El de demografía ha recaído en Saul Justin Newman, de la universidad de Oxford, por mostrar cómo muchos de los casos de ultracentenarios (personas que viven hasta edades significativamente por encima de los cien) ocurren realmente en lugares donde la esperanza de vida no es particularmente alta, no hay certificados de nacimiento y abundan los errores administrativos y el fraude en las pensiones. De hecho, en esta entrevista afirma cosas tan entretenidas como que en Okinawa, el mejor predictor del lugar donde residen los ultracentenarios es que el registro civil del municipio en cuestión hubiese sido destruido por los bombardeos estadounidenses en la II Guerra Mundial.
  2. El de probabilidad, en un equipo de 50 investigadores por el artículo Fair coins tend to land on the same side they started: Evidence from 350,757 flips, cuyo título lo dice todo.

El artículo busca la confirmación de resultados anunciados por Persi Diaconis y sus coautores en un artículo que ya mencioné hace años aquí. Puede que a alguien le parezca ridículo e inaudito realizar un experimento consistente en lanzar monedas un total de 350757 veces; pero hay que recordar que el primer problema de estadística que conste documentalmente que se resolvió usando p-valores fue el de determinar si había sesgos en doce dados que se lanzaron 26306 veces allá en 1900 (véase esto).

(Estadística y fraude electoral) vs (fraude electoral y fraude estadístico)

Hay un blog que conoció mejores tiempos, lleva varios años en caída libre y estoy por quitar de mi lista de RSS: NadaEsgratis. Para aprender de lo que trata hay mejores sitios. Y de lo único que informa, el lastimoso estado de la disciplina en cuestión en España, es agua sobre mojado.

Pero de vez en cuando inspira entradas. Por ejemplo, Estadística y fraude electoral: lo que el teorema central del límite nos revela acerca del régimen de Putin, de Manuel Bagues.

¿Por qué es "tan fácil" la optimización en altas dimensiones?

Esta es la función de Rosenbrock, también conocida como función plátano o —en algunos contextos— como el coco:

Es una de esas funciones contra la que tienen que demostrar su valía los algoritmos de optimización que los matemáticos discurren por ahí. La función ilustra uno de los problemas habituales de la optimización: las variables se confabulan para que las ideas simples no funcionen: los gradientes no apuntan hacia el mínimo, este se encuentra en un valle estrecho, etc. Y que conste que las he visto peores en la práctica.

Más sobre las R² pequeñas

I.

Si uno hace

n <- 1000

# dos clases del mismo tamaño n
x <- c(rep(0, n), rep(1, n))

# mean(y0) = .45, mean(y1) = .55
y0 <- y1 <- rep(0, n)
y0[1:(.45 * n)] <- 1
y1[1:(.55 * n)] <- 1

# mean(y) = .5
y <- c(y0, y1)

summary(lm(y ~ x))

obtiene

Residuals:
   Min     1Q Median     3Q    Max
 -0.55  -0.45   0.00   0.45   0.55

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.45000    0.01574  28.590  < 2e-16 ***
x            0.10000    0.02226   4.492 7.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4977 on 1998 degrees of freedom
Multiple R-squared:   0.01,	Adjusted R-squared:  0.009505
F-statistic: 20.18 on 1 and 1998 DF,  p-value: 7.444e-06

donde quiero subrayar que la R² es del 1% o muy pequeña.