Estadística

Sobre el exceso de mortalidad en noviembre de 2021

[Nota: trabajé —pero desde hace muchos meses ya no— en MoMo. Así que algo sé al respecto. No obstante, las opiniones reflejadas aquí son enteramente mías. Además, están escritas desde una perspectiva estadística, no epidemiológica o, por extensión, médica.]

Han aparecido ciertas noticias en prensa acerca del exceso de mortalidad reflejado por MoMo —más sobre MoMo, aquí— durante el mes de noviembre de 2021 (véase esto o esto). La tónica general de los artículos es la del desconcierto de los expertos, que ni se explican ni se atreven a explicarnos posibles motivos del repunte de la mortalidad.

Más sobre la estimación de probabilidades de eventos que no se repiten

Hace un tiempo hablé sobre la estimación de probabilidades de eventos que ocurren una única vez: elecciones, etc. Argumentaba cómo pueden ser descompuestos en dos partes muy distintas cualitativamente: una asociada a eventos que sí que se han repetido; otra, específica y única. El tamaño relativo de ambas componentes afecta a eficacia del mecanismo de estimación.

Esta vez quiero ilustrarlo con un ejemplo extraído, traducido y adaptado de aquí que ilustra el procedimiento.

Estadística vs siquiatría: la aparente contradicción, la profunda síntesis

[Nota: esta entrada está indirectamente motivada por mi asistencia a la presentación (y posterior adquisición) del libro “Los peligros de la moralidad” de Pablo Malo hoy día 3 de diciembre de 2021.]

Desde Freud hasta Pablo Malo son muchos los siquiatras que han intervenido en el debate público aportando su visión sobre distintos temas.

Desde ¿quién? hasta ¡tantos! son innumerables los estadísticos que han intervenido (generalmente, de modo implícito) en el debate público aportando su visión sobre distintos temas.

¿Por qué cabe argumentar que estos resultados infraestiman la efectividad de las vacunas contra el covid?

Me refiero a los mostrados en el siguiente gráfico (del que he sido una microcausa):

En él se ve, por ejemplo, como la probabilidad de acabar en la UCI para la gente entre 60 y 80 años es hasta 23 veces mayor entre los no vacunados que entre los vacunados.

[Nota: en una segunda aproximación a ese análisis habría que tratar de estimar el error asociado a ese múltiplo. Nótese que depende muy críticamente de un denominador minúsculo y que, casi seguro, varía notablemente de día en día, según van llegando datos nuevos.]

Medias ponderadas a lo Uluru

Dicen que el brote de inflación que estamos viviendo es atípico (y según algunos, menos preocupante) porque no está generalizada sino concentrada en un número pequeño de productos.

Trae The Economist en su número del 6 de noviembre (de 2021) un artículo al respecto que tiene cierto interés estadístico. Comienza comparando la inflación de ahora con la de otros años donde el incremento de los precios fue, de acuerdo con cómo se computa tradicionalmente la inflación, igual, a través de la distribución de los incrementos de precios sobre las distintas categorías:

Garantías de robustez en inferencia causal

Por motivos que no vienen al caso, me ha tocado ponderar el artículo The use of controls in interrupted time series studies of public health interventions. Lo comento hoy porque hace referencia a temas que me ha gustado tratar en el pasado.

El artículo, prima facie, es un poco viejuno. De hecho, casi todo lo que se escribe sobre metodología en el mundo de las aplicaciones (y el que cito tiene que ver con salud pública) tiene tufillo de naftalina. Para cuando un resultado metodológico llega al común conocimiento de quienes se dedican a la sociología, ciencia política, salud pública, etc., los estadísticos ya han aprendido un montón de cosas nuevas y mucho más guays.

La miseria de la inferencia causal vivida

X escribe en 2020:

In particular, panel A presents the results when the municipalities are divided according to the real average Internet speed (Mbps). As is evident, the effect of extreme-right mayors on hate crimes is concentrated in municipalities where Internet speed is high, especially when the intensive margin is considered […]

Y escribe también en 2020:

Results show that Internet availability between 2008 and 2012 is associated with a better knowledge of (national) immigration dynamics and that it leads to an overall improvement in attitudes towards immigrants.

Más sobre aquel concepto estadístico que aconsejé desaprender: la suficiencia

En esta entrada abundo en una que escribí hace ocho años: Conceptos estadísticos que desaprender: la suficiencia. Lo hago porque casualmente he tropezado con su origen y justificación primera, el afamado artículo On the Mathematical Foundations of Theoretical Statistics del nunca suficientemente encarecido R.A. Fisher.

Criticaba en su día lo inútil del concepto. Al menos, en la práctica moderna de la estadística: para ninguno de los conjuntos de datos para los que trabajo existe un estadístico suficiente que no sea la totalidad de los datos.

Dos cuestiones sobre la naturaleza de la probabilidad planteadas por Keynes en 1921 pero que siguen hoy igual de vigentes

I.

A Treatise on Probability, la obra de Keynes (sí, el famoso) de 1921, es un libro muy extraño que se puede leer de muchas maneras. Puede servir, si se hace poco caritativamente, para denunciar el lastimoso estado en el que se encontraba la probabilidad antes de la axiomatización de Kolmogorov, 12 años depués de su publicación. O también, si se hace más cuidadosamente, para rescatar una serie de consideraciones que aun hoy muchos hacen mal en ignorar.

Sobre las R² pequeñas y sus interpretaciones

Hace unos meses escribí una entrada en defensa (parcial) de una regresión lineal con una R² pequeña. He vuelto a pensar sobre ella y retomo la discusión para esclarecer —sobre todo, para profanos— qué mide la R² y cómo interpretarla según el contexto.

Comienzo por un experimento físico mental. En un laboratorio se realiza un experimento para medir la relación entre dos magnitudes físicas, un efecto $latex y$ y una causa $latex x$. La teoría especifica una relación del tipo $y = a + b x$ y experimentalmente (y en condiciones de laboratorio ideales) se obtienen una serie de datos $latex (x_i, y_i)$. La relación entre ambos es de la consabida forma