estadística

Universo y muestra: un ejemplo muy didáctico en el que La Caixa lo hace todo mal

Los manuales de estadística al uso introducen los conceptos de universo y muestra y tienden a ilustrarlos con ejemplos buenos. Pero los ejemplos buenos son útiles solo hasta cierto punto: ilustran, como digo, pero ni caracterizan ni delimitan. Los ejemplos malos, sin embargo, son muy útiles porque ayudan a trazar una frontera entre lo que es y lo que no es permisible. Pero, ¿de dónde sacar buenos ejemplos malos? Aunque no es fácil, nuestros colegas de La Caixa Research han tenido la gentileza de ponernos uno a huevo: es Los precios de la luz están por las nubes, ¿y el importe de su recibo?

La peor página de N. Taleb

Dicen algunos —bueno, más bien, lo suelo decir yo— que la intersección de lo nuevo, lo interesante y lo cierto es el conjunto vacío. Ahora, N. Taleb nos regala una página en el que trata novedosamente un tema que lleva siendo intereante desde, al menos, lo puso encima de la mesa el reverendo (Bayes) hace 250 años. Ergo… Veamos qué nos cuenta. Se plantea el problema de unos experimentos (independientes) de Bernoulli con probabilidad de ocurrencia desconocida $p$.

La (mejor) caracterización de la binomial negativa (en términos de la Poisson y la gamma)

Estamos acostumbrados a la caracterización habitual de la distribución binomial negativa como el aburrido número de fracasos en una serie de ensayos de Bernoulli hasta lograr $r$ éxitos. Esto, junto con un poco de matemáticas de primero de BUP —todo aquello de combinaciones, etc.— lleva a la expresión conocida de su función de probabilidad, $$\binom{n + x - 1}{x} p^r (1 - p)^x.$$ Pero esta caracterización, muy útil para resolver problemas de probabilidad construidos artificialmente para demostrar que los alumnos han estudiado la lección con aprovechamiento, se queda muy corta a la hora de proporcionar intuiciones sobre cómo, cuándo y por qué utilizarla en el ámbito en el que es más útil: el análisis de los procesos puntuales.

¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?

Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto: Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc.

Más sobre el exceso de mortalidad en noviembre de 2021

Esta entrada abunda sobre la que publiqué hace unos días y va a tener un enfoque mucho más general y estadístico. La idea fundamental es la siguiente: Un modelo estadístico es una idealización de la realidad. Es una idealización en tanto que descarta información. Lo deseable sería que los modelos incorporasen toda la información relevante disponible respecto al fenómeno al que se refieren —y de ahí la ventaja que muchos ven en la estadística bayesiana—, pero eso resulta imposible.

Sobre el exceso de mortalidad en noviembre de 2021

[Nota: trabajé —pero desde hace muchos meses ya no— en MoMo. Así que algo sé al respecto. No obstante, las opiniones reflejadas aquí son enteramente mías. Además, están escritas desde una perspectiva estadística, no epidemiológica o, por extensión, médica.] Han aparecido ciertas noticias en prensa acerca del exceso de mortalidad reflejado por MoMo —más sobre MoMo, aquí— durante el mes de noviembre de 2021 (véase esto o esto). La tónica general de los artículos es la del desconcierto de los expertos, que ni se explican ni se atreven a explicarnos posibles motivos del repunte de la mortalidad.

Más sobre la estimación de probabilidades de eventos que no se repiten

Hace un tiempo hablé sobre la estimación de probabilidades de eventos que ocurren una única vez: elecciones, etc. Argumentaba cómo pueden ser descompuestos en dos partes muy distintas cualitativamente: una asociada a eventos que sí que se han repetido; otra, específica y única. El tamaño relativo de ambas componentes afecta a eficacia del mecanismo de estimación. Esta vez quiero ilustrarlo con un ejemplo extraído, traducido y adaptado de aquí que ilustra el procedimiento.

Estadística vs siquiatría: la aparente contradicción, la profunda síntesis

[Nota: esta entrada está indirectamente motivada por mi asistencia a la presentación (y posterior adquisición) del libro “Los peligros de la moralidad” de Pablo Malo hoy día 3 de diciembre de 2021.] Desde Freud hasta Pablo Malo son muchos los siquiatras que han intervenido en el debate público aportando su visión sobre distintos temas. Desde ¿quién? hasta ¡tantos! son innumerables los estadísticos que han intervenido (generalmente, de modo implícito) en el debate público aportando su visión sobre distintos temas.

¿Por qué cabe argumentar que estos resultados infraestiman la efectividad de las vacunas contra el covid?

Me refiero a los mostrados en el siguiente gráfico (del que he sido una microcausa): Siguiendo recomendaciones, he decidido visualizar los datos sobre la gravedad de casos de COVID-19 según estado de vacunación que hizo públicos el Ministerio de Sanidad antes de ayer. Este gráfico permite visualizar la tasa por grupos y la diferencia entre ellas al mismo tiempo. pic.twitter.com/t3zcSsQUKD — 📊⛏ Picanúmeros (@Picanumeros) November 25, 2021 En él se ve, por ejemplo, como la probabilidad de acabar en la UCI para la gente entre 60 y 80 años es hasta 23 veces mayor entre los no vacunados que entre los vacunados.

Medias ponderadas a lo Uluru

Dicen que el brote de inflación que estamos viviendo es atípico (y según algunos, menos preocupante) porque no está generalizada sino concentrada en un número pequeño de productos. Trae The Economist en su número del 6 de noviembre (de 2021) un artículo al respecto que tiene cierto interés estadístico. Comienza comparando la inflación de ahora con la de otros años donde el incremento de los precios fue, de acuerdo con cómo se computa tradicionalmente la inflación, igual, a través de la distribución de los incrementos de precios sobre las distintas categorías:

Garantías de robustez en inferencia causal

Por motivos que no vienen al caso, me ha tocado ponderar el artículo The use of controls in interrupted time series studies of public health interventions. Lo comento hoy porque hace referencia a temas que me ha gustado tratar en el pasado. El artículo, prima facie, es un poco viejuno. De hecho, casi todo lo que se escribe sobre metodología en el mundo de las aplicaciones (y el que cito tiene que ver con salud pública) tiene tufillo de naftalina.

La miseria de la inferencia causal vivida

X escribe en 2020: In particular, panel A presents the results when the municipalities are divided according to the real average Internet speed (Mbps). As is evident, the effect of extreme-right mayors on hate crimes is concentrated in municipalities where Internet speed is high, especially when the intensive margin is considered […] Y escribe también en 2020: Results show that Internet availability between 2008 and 2012 is associated with a better knowledge of (national) immigration dynamics and that it leads to an overall improvement in attitudes towards immigrants.

Más sobre aquel concepto estadístico que aconsejé desaprender: la suficiencia

En esta entrada abundo en una que escribí hace ocho años: Conceptos estadísticos que desaprender: la suficiencia. Lo hago porque casualmente he tropezado con su origen y justificación primera, el afamado artículo On the Mathematical Foundations of Theoretical Statistics del nunca suficientemente encarecido R.A. Fisher. Criticaba en su día lo inútil del concepto. Al menos, en la práctica moderna de la estadística: para ninguno de los conjuntos de datos para los que trabajo existe un estadístico suficiente que no sea la totalidad de los datos.