Estadística

Isosemanas

Muchos fenómenos tienen una periodicidad intrínsecamente semanal (p.e., el tráfico). Eso puede motivar el uso la semana como unidad temporal de referencia en determinados análisis en lugar del mes o el día.

Existe gente que tal vez no esté al tanto de que existe un estándar ISO para definir y representar las semanas sin ambigüedad, el ISO 8601. Sus principales características son

  • Las isosemanas comienzan el lunes y terminan el domingo.
  • La primera isosemana del año es la que contiene el primer jueves del año.
  • Un año contiene típicamente 52 isosemanas, aunque algunos (entre ellos, 1903, 1908, 1914, 1920, 1925, 1931, 1936, 1942, 1948, 1953, 1959, 1964, 1970, 1976, 1981, 1987, 1992, 1998, 2004, 2009, 2015, 2020, 2026, 2032, 2037, 2043, 2048, 2054, 2060, 2065, 2071, 2076, 2082, 2088, 2093, 2099) contienen 53.
  • Las isosemanas se representan con el formato YYYY-Www (e.g., 2025-W10 para la décima semana de 2025)

Hoy en día no merece la pena que indique cómo calcular ni manipular isosemanas en los lenguajes de programación más usuales: casi cualquier LLM lo sabe y lo puede ayudar a uno a crear funciones como

¿Por qué seleccionar "el mejor" modelo?

Tiene Ripley, el gran Ripley, un artículo de hace 20 años titulado Selecting Amongst Large Classes of Models donde discute la cuestión —la del título de esta entrada— y dice:

Deberíamos preguntarnos por qué queremos seleccionar un modelo. Parece ser un error extendido que la selección de modelos trata de “seleccionar el mejor modelo”. Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí de David Cox cuando era un profesor novato en el Imperial College tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas.

Demografía: la regla del 85

Existe una regla rápida en demografía para estimar la población futura de un país: tomar el número de nacimientos en un año dado y multiplicarlo por 85. En 2023 nacieron en España 321k chiquillos; por 85, da 27 millones, aproximadamente la mitad de la actualmente existente. Los interesados pueden consultar los datos de su CCAA de interés aquí y hacer cuentas.

La aproximación, obviamente, está basada en el lo que pasaría en un estado estacionario y en ausencia de emigración/emigración significativa. Es simplemente, un truco para obtener rápidamente una cifra-pivote alrededor de la cual plantear escenarios diversos, si es que a uno le interesan esas cosas y tiene tiempo que dedicarles.

Una justificación desapasionada del promedio como mecanismo para agregar predicciones

Existe incertidumbre sobre el resultado, 0 o 1, de un evento de interés $X$. Se convoca a $n$ expertos que hacen predicciones $p_1, \dots, p_n$ sobre dicho evento, i.e., el experto $i$ considera que $P(X = 1) = p_i$. Entonces, ¿cómo se pueden combinar las predicciones $p_i$ para obtener una predicción conjunta $p$?

Uno pensaría que el promedio, $p = \frac{1}{n} \sum_i p_i$, es una opción razonable. En la literatura se discuten también generalizaciones del tipo $p = \sum_i w_i p_i$ para pesos $w_i$ que suman 1. Sin embargo, en sitios como este se sugiere usar la media geométrica de los odds (o, equivalentemente, la aritmética de los log ods), es decir, calcular los log odds,

Bajo hipótesis razonables, hacen falta 16 veces más observaciones para estimar una interacción que para estimar un efecto principal

Uno de los grandes temas de estas páginas es que el efecto principal de un tratamiento es un indicador demasiado burdo. Casi siempre queremos ver ese efecto propiamente desglosado: a unos sujetos les afecta más, a otro menos.

Para lograr ese objetivo, hay que estudiar cómo interactúa el efecto con otras variables (p.e., sexo). Desafortunadamente, cuanto mayor es el grado de desglose, más incertidumbre existe sobre las estimaciones; a la inversa, para lograr una mayor precisión en las estimaciones, hace falta incrementar el tamaño muestral. Pero, ¿cuánto?

Sobre el modelo beta-binomial con "deriva"

Planteamiento del problema

El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.

Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: ¿los datos de hace tres años, siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?

Sobre la verosimilitud de distribuciones "compuestas"

Si tenemos una distribución continua (que depende de un parámetro $\alpha$) $f_\alpha$ y una muestra blablablá $x_1, \dots, x_n$, la verosimilitud asociada es

$$\prod_{i = 1}^n f_\alpha(x_i).$$

Si tenemos una distribución discreta (que depende de un parámetro $\beta$) $p_\beta$ y una muestra blablablá $y_1, \dots, y_m$, la verosimilitud asociada es

$$\prod_{i = 1}^m p_\beta(y_i).$$

Pero si tenemos una mezcla de distribuciones, una continua $f_\alpha$ y una discreta $p_\beta$ y una muestra blablablá $x_1, \dots, x_n, y_1, \dots, y_m$, ¿la verosimilitud asociada sigue siendo

La paradoja (de Simpson) detrás de ciertos argumentos en pro de una subida generalizada de salarios

Trae El Confidencial un artículo de Javier Jorrín —según Jesús Fernández-Villaverde, el mejor periodista económico ahora mismo en España—, titulado La mejora de la productividad permitirá a las empresas prolongar la subida de salarios. El artículo se resume en tres enunciados que, así, en frío, según se verá, son contradictorios:

  1. Ha aumentado la productividad (PIB por hora trabajadda) en España.
  2. Eso da margen para que suban los salarios.
  3. El incremento de la productividad se debe a que ganan peso los sectores económicos más productivos.

La problemática relación entre (1) y (2) se la dejo a los economistas. Se pueden elaborar experimentos mentales en los que (2) se sigue de (1) y otros en los que no. Evaluar su pertinencia no es materia de estas páginas.

¿A quién crees que van a votar tus vecinos?

La historia, telegráficamente, es así:

  1. Hubo unas elecciones hace unos pocos días en EEUU.
  2. Existieron las concomintantes encuestas, predicciones y… mercados de apuestas.
  3. De entre los últimos, Polymarket se destacó por asignar unas probabilidades de victoria a Trump muy superiores a las del bendito consenso.
  4. Hubo gente muy sabida que criticó mucho a Polymarket. El argumento principal era:
    1. En Polymarket se juega con dinero.
    2. La gente rica tiende a tener más querencia por Trump.
    3. La gente rica tiende a tener más querencia por los mercados, las apuestas, etc.
    4. La gente rica que apoya a Trump está sobrerrepresentada entre los usuarios de Polymarket —a diferencia de lo que ocurre, por ejemplo, en Metaculus— y eso sesga el mercado.
  5. Se supo que un solo inversor había realizado pujas muy elevadas en Polymarket.
  6. Incluso se especuló si ese inversor era realmente Elon Musk (y que intervenía en él para influir maliciosamente en el proceso electoral).
  7. Este inversor ha acabado ganando bastante dinero (unas cuantas decenas de millones de euros) con sus apuestas.

Se ha sabido, no obstante, que el inversor en cuestión es un tal Théo, de Francia.

Los estadísticos, hasta cierto momento, no hicieron más que interpretar de diversos modos el mundo; luego, cuando quisieron transformarlo, se encontraron con una serie de problemas que no anticiparon

A veces los estadísticos analizan datos. Desde afuera de mundo, dan su visión sobre hechos pasados. Fin de la historia.

Desde cierto tiempo para acá, a los estadísticos (y colegas de profesiones anejas) se les piden no solo interpretaciones sobre el mundo sino, también, predicciones, consejos, ingredientes para la toma de ciertas decisiones, etc. Eso los inserta hasta las zancas en el mundo. Esas predicciones que hacen, operan sobre el mundo del que se extrajeron los datos y, al hacerlo, lo alteran. Como consecuencia, esas predicciones contienen un germen de contradicción; alguien puede querer leer esto al respecto.