Universo y muestra: un ejemplo muy didáctico en el que La Caixa lo hace todo mal

Los manuales de estadística al uso introducen los conceptos de universo y muestra y tienden a ilustrarlos con ejemplos buenos. Pero los ejemplos buenos son útiles solo hasta cierto punto: ilustran, como digo, pero ni caracterizan ni delimitan. Los ejemplos malos, sin embargo, son muy útiles porque ayudan a trazar una frontera entre lo que es y lo que no es permisible.

Pero, ¿de dónde sacar buenos ejemplos malos? Aunque no es fácil, nuestros colegas de La Caixa Research han tenido la gentileza de ponernos uno a huevo: es Los precios de la luz están por las nubes, ¿y el importe de su recibo? (que ha sido recogido y glosado por el inefable elDiario.es aquí).

La peor página de N. Taleb

Dicen algunos —bueno, más bien, lo suelo decir yo— que la intersección de lo nuevo, lo interesante y lo cierto es el conjunto vacío. Ahora, N. Taleb nos regala una página en el que trata novedosamente un tema que lleva siendo intereante desde, al menos, lo puso encima de la mesa el reverendo (Bayes) hace 250 años. Ergo…

Veamos qué nos cuenta. Se plantea el problema de unos experimentos (independientes) de Bernoulli con probabilidad de ocurrencia desconocida $p$. Hay $n$ ensayos y $m$ éxitos. Y afirma que el mejor estimador es

Las reglas generales son para lacayos; el contexto, para reyes

La frase

Las reglas generales son para lacayos; el contexto, para reyes.

apareció, dícese, en un episodio de Star Treck.

[Nótese su metainterpretación: ¡no deja de ser una regla general!]

Pero por los motivos que expongo a continuación resonó como pocas frases hacen: tiene mucho que ver con el día a día de todo lo que hago. El mundo sería tal vez más feliz —y mucho más aburrido— si funcionase así:

Cambio climático e incertidumbre

Aunque todavía no haya calado a la población en general —dígolo con las cifras de los tres principales problemas que existen actualmente en España del CIS en mano— son muchas y reputadas las voces que nos advierten del grave riesgo que supone el cambio climático. Tantas y tan conspicuas que, sin duda, habrá que hacerles caso.

Es el parecer —casi, diríase, el consenso— de muchos economistas que la mejor manera para encarar el cambio climático es un impuesto (pigouviano, universal) al carbono. (Nótese, sin embargo, que la UE ha optado por una vía alternativa: la de la creación de cupos. Que viene a ser la solución dual: en lugar de dejar variar la cantidad fijando el precio, dejan variar el precio fijando la cantidad.)

La (mejor) caracterización de la binomial negativa (en términos de la Poisson y la gamma)

Estamos acostumbrados a la caracterización habitual de la distribución binomial negativa como el aburrido número de fracasos en una serie de ensayos de Bernoulli hasta lograr $r$ éxitos. Esto, junto con un poco de matemáticas de primero de BUP —todo aquello de combinaciones, etc.— lleva a la expresión conocida de su función de probabilidad,

$$\binom{n + x - 1}{x} p^r (1 - p)^x.$$

Pero esta caracterización, muy útil para resolver problemas de probabilidad construidos artificialmente para demostrar que los alumnos han estudiado la lección con aprovechamiento, se queda muy corta a la hora de proporcionar intuiciones sobre cómo, cuándo y por qué utilizarla en el ámbito en el que es más útil: el análisis de los procesos puntuales.

¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?

Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto:

Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc. De los museos antropológicos siempre saco la misma sensación: esa gente era enana, carajo.

¿Por qué vivimos tantos españoles a tanta altitud?

Perdóneseme haber usado lenguaje causal en el título de esta entrada siendo así que no encontrará el lector indicios sólidos de respuesta en lo que sigue. Y, sobre todo, que no se confunda y me tome por un sociólogo a la violeta o un economista posmo: no, soy matemático.

Quiero simplemente hacer constar un pequeño ejercicio de análisis espacial usando los paquetes sf y terra de R motivado, eso sí, por una pregunta que se planteó en cierto foro a raíz de esta captura de la Wikipedia:

Una forma insidiosa de spam

Durante el proceso de migración de mi blog a Hugo he descubierto —pienso también que tal vez sea algo inocente y haya tropezado con algo requetesabido— con una forma particularmente insidiosa de spam. Una de las cosas en las que me he entretenido es en buscar enlaces rotos. Hay muchísimos, habida cuenta de que hay muchas entradas, más de 2000, con una antigüedad media de unos cinco años y máxima de más de diez.

He migrado el blog a Hugo

He migrado el blog a Hugo (como bien podrá comprobarse). He aprovechado para realizar algunas modificaciones estéticas, sobre todo en lo concerniente al tipo de letra. Creo que ahora invita mucho más a leer.

Podría enumerar las muchas ventajas que proporciona Hugo con respecto a Wordpress. Están casi todas contadas por ahí. Tendría que añadir a ellas una de índole personal: puedo hacer búsquedas con grep directamente sobre el texto plano de los ficheros de las entradas. Es increíble la cantidad de cosas que pude llegar a saber en algún momento de los últimos 10 largos años que llevo generando entradas y de las que me he acabado olvidando.

Más sobre el exceso de mortalidad en noviembre de 2021

Esta entrada abunda sobre la que publiqué hace unos días y va a tener un enfoque mucho más general y estadístico.

La idea fundamental es la siguiente:

  • Un modelo estadístico es una idealización de la realidad.
  • Es una idealización en tanto que descarta información. Lo deseable sería que los modelos incorporasen toda la información relevante disponible respecto al fenómeno al que se refieren —y de ahí la ventaja que muchos ven en la estadística bayesiana—, pero eso resulta imposible.
  • Por lo tanto, cuando un modelo falla el primer sospechoso es algún tipo de información que hubiéramos querido incorporar al modelo pero que se ha quedado fuera.

En el caso que discutí el otro día, la información que ignora el modelo es que el de noviembre de 2021 fue uno particularmente frío. Sabemos que la temperatura influye mucho en la mortalidad y sabemos que noviembre fue un mes particularmente frío. Por lo tanto, cabe esperar que se infraestime la mortalidad real.