El sesgo de supervivencia: más allá del manido avión de la IIGM

Todos tenemos una serie de neuronas en la cabeza que se chutan de dopamina cuando oyen “sesgo de supervivencia” y proyectan

en nuestra imaginación. Pero existen alternativas.

La primera es la que describe Émile-Auguste Chartier en su obra Propos d’un Normand 1906-1914 de 1908 cuando habla de cómo se diseñan las canoas polinesias:

Tout bateau est copié sur un autre batea… Raisonnons là-dessus à la manière de Darwin. Il est clair qu’un bateau très mal fait s’en ira par le fond après une ou deux campagnes, et ainsi ne sera jamais copié… On peut donc dire, en toute rigueur, que c’est la mer elle-même qui façonne les bateaux, choisit ceux qui conviennent et détruit les autres.

El efecto "pierna rota"

Esa entrada tiene que ver con dos cosas. Una, la que escribí hace un tiempo sobre el análisis de modelos a la vista de información que nosotros tenemos y ellos, por lo que sea, no. La segunda, que es además la que da nombre a esta, un fenómeno que menciona Paul Meehl en su libro Clinical Versus Statistical Prediction.

El libro describe y las compara predicciones clínicas (subjetivas, basadas en la experiencia y usando como datos dossieres más o menos extensos) y las estadísticas, basadas en puntuaciones (o scores) construidos a partir de en unas cuantas variables. El tema central del libro (¡de los años 50!) es cómo esos modelos estadísticos que apenas usan unos cuantas variables funcionan generalmente tan bien o mejor que las predicciones clínicas. Lo hace, además, a través de un metaanálisis de la literatura existente en la época (y actualizado algunas décadas después por el autor sobre una base evidentemente mucho más amplia de estudios).

¿Qué nos enseña la historia de los granos de trigo sobre el muestreo de las posterioris?

No hace falta que cuente aquella historia del tablero de ajedrez, los granos de trigo, etc. ¿verdad? (Desavisados: leed esto.) La entrada de hoy se ocupa de un problema dual: el número de granos de trigo será fijo, pero hay que repartirlo en un número explosivamente creciente de casillas.

Imagina ahora que quieres ajustar un modelo bayesiano usando MCMC. Imagina que tienes 1, 2, 3,… variables. Imagina el espacio de dimensión $n$ definido por dichas variables. El número de cuadrantes es $2^n$.

Abundancia roja: una miniperspectiva matemática e informática

Este, a mitad de la tarde del día en cuya mañana he debido personarme en el quinto pino cargado de originales y sus correspondientes fotocopias para que una enjuta y adusta funcionaria de una de esas onerosas manifestaciones del estado metiese la entrometida nariz en un contrato firmado libérrimamente por dos mayores de edad en pleno uso y disfrute de sus facultades mentales [pausa, pausa, ¡pausa!], es momento sin igual para minirreseñar

Inflación... ¿media?

Estos días se oye que la inflación del 2021 fue del 6.5% pero a la vez y sin solución de continuidad, que fue del 3.1%. Esta entrada sirve para aclarar de dónde salen esas cifras y para qué son útiles.

La fuente de todo es el índice de precios al consumo (IPC), que mide el precio —debidamente normalizado— de una canasta de productos a lo largo del tiempo y que tiene esta pinta:

Universo y muestra: un ejemplo muy didáctico en el que La Caixa lo hace todo mal

Los manuales de estadística al uso introducen los conceptos de universo y muestra y tienden a ilustrarlos con ejemplos buenos. Pero los ejemplos buenos son útiles solo hasta cierto punto: ilustran, como digo, pero ni caracterizan ni delimitan. Los ejemplos malos, sin embargo, son muy útiles porque ayudan a trazar una frontera entre lo que es y lo que no es permisible.

Pero, ¿de dónde sacar buenos ejemplos malos? Aunque no es fácil, nuestros colegas de La Caixa Research han tenido la gentileza de ponernos uno a huevo: es Los precios de la luz están por las nubes, ¿y el importe de su recibo? (que ha sido recogido y glosado por el inefable elDiario.es aquí).

La peor página de N. Taleb

Dicen algunos —bueno, más bien, lo suelo decir yo— que la intersección de lo nuevo, lo interesante y lo cierto es el conjunto vacío. Ahora, N. Taleb nos regala una página en el que trata novedosamente un tema que lleva siendo intereante desde, al menos, lo puso encima de la mesa el reverendo (Bayes) hace 250 años. Ergo…

Veamos qué nos cuenta. Se plantea el problema de unos experimentos (independientes) de Bernoulli con probabilidad de ocurrencia desconocida $p$. Hay $n$ ensayos y $m$ éxitos. Y afirma que el mejor estimador es

Las reglas generales son para lacayos; el contexto, para reyes

La frase

Las reglas generales son para lacayos; el contexto, para reyes.

apareció, dícese, en un episodio de Star Treck.

[Nótese su metainterpretación: ¡no deja de ser una regla general!]

Pero por los motivos que expongo a continuación resonó como pocas frases hacen: tiene mucho que ver con el día a día de todo lo que hago. El mundo sería tal vez más feliz —y mucho más aburrido— si funcionase así:

Cambio climático e incertidumbre

Aunque todavía no haya calado a la población en general —dígolo con las cifras de los tres principales problemas que existen actualmente en España del CIS en mano— son muchas y reputadas las voces que nos advierten del grave riesgo que supone el cambio climático. Tantas y tan conspicuas que, sin duda, habrá que hacerles caso.

Es el parecer —casi, diríase, el consenso— de muchos economistas que la mejor manera para encarar el cambio climático es un impuesto (pigouviano, universal) al carbono. (Nótese, sin embargo, que la UE ha optado por una vía alternativa: la de la creación de cupos. Que viene a ser la solución dual: en lugar de dejar variar la cantidad fijando el precio, dejan variar el precio fijando la cantidad.)

La (mejor) caracterización de la binomial negativa (en términos de la Poisson y la gamma)

Estamos acostumbrados a la caracterización habitual de la distribución binomial negativa como el aburrido número de fracasos en una serie de ensayos de Bernoulli hasta lograr $r$ éxitos. Esto, junto con un poco de matemáticas de primero de BUP —todo aquello de combinaciones, etc.— lleva a la expresión conocida de su función de probabilidad,

$$\binom{n + x - 1}{x} p^r (1 - p)^x.$$

Pero esta caracterización, muy útil para resolver problemas de probabilidad construidos artificialmente para demostrar que los alumnos han estudiado la lección con aprovechamiento, se queda muy corta a la hora de proporcionar intuiciones sobre cómo, cuándo y por qué utilizarla en el ámbito en el que es más útil: el análisis de los procesos puntuales.

¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?

Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto:

Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc. De los museos antropológicos siempre saco la misma sensación: esa gente era enana, carajo.

¿Por qué vivimos tantos españoles a tanta altitud?

Perdóneseme haber usado lenguaje causal en el título de esta entrada siendo así que no encontrará el lector indicios sólidos de respuesta en lo que sigue. Y, sobre todo, que no se confunda y me tome por un sociólogo a la violeta o un economista posmo: no, soy matemático.

Quiero simplemente hacer constar un pequeño ejercicio de análisis espacial usando los paquetes sf y terra de R motivado, eso sí, por una pregunta que se planteó en cierto foro a raíz de esta captura de la Wikipedia:

Una forma insidiosa de spam

Durante el proceso de migración de mi blog a Hugo he descubierto —pienso también que tal vez sea algo inocente y haya tropezado con algo requetesabido— con una forma particularmente insidiosa de spam. Una de las cosas en las que me he entretenido es en buscar enlaces rotos. Hay muchísimos, habida cuenta de que hay muchas entradas, más de 2000, con una antigüedad media de unos cinco años y máxima de más de diez.