Los factores de Bayes son las hamburguesas veganas

Si eres vegano, vale, come tu lechuga y tu berenjena. Pero, ¿qué necesidad tienes de hamburguesas veganas? ¿Y a qué viene ufanarte de que saben casi igual?

[Nota: el párrafo anterior está escrito en condicional y aplica a ciertos veganos, entrellos alguno que conozco.]

Siempre he visto todo lo que rodea a los factores de bayes un tufillo a hamburguesa vegana. Es decir, un intento por reproducir lo más fidedignamente posible aquello que —¿por razones metodológicas?— rechazamos.

bamlss promete regresión bayesiana flexible

R

Un paquete relativamente nuevo de R (las primeras versiones son de 2017) que llevo un tiempo siguiendo de reojo es bamlss.

bamlss es un paquete que permite especificar y ajustar varios tipos de modelos usando en principio métodos bayesianos, aunque tampoco necesariamente.

No puedo decir mucho más de él de momento. Habrá que ver cómo se comporta más allá de los ejemplos discutidos en la documentación. Muchos paquetes tienden a hacer trivial lo que antes era sencillo e imposible lo que antes difícil. Espero que no sea el caso y que acabe facilitando la divulgación de herramientas estadísticas avanzadas más allá del consabido $latex y \sim x_1 + x_2 + \dots$ envuelto sea en lm o en XGBoost.

Los ejemplos son las conclusiones

[Ahí va otro aforismo en la línea de este otro].

Me recomienda Medium muy encarecidamente la lectura de Optimization over Explanation y yo a mis lectores. Trata el asunto de la responsabilidad dizque ética de los algoritmos de inteligencia artificial. Nos cuenta cómo la legislación en general y la GDPR en particular ha hecho énfasis en la explicabilidad de los modelos: según la GDPR, los sujetos de esos algoritmos tendríamos el derecho a que se nos explicasen las decisiones que toman en defensa de nosequé bien jurídico, que nunca he tenido claro y que se suele ilustrar examinando una serie de casos en los que salen aparentemente perjudicados los miembros de unas cuantas minorías cuya agregación son todos menos yo y unos poquitos más que se parecen a mí.

A más gripe, ¿menos mortalidad? En determinados submundos frecuentistas, sí

Estos días he tenido que adaptar y ejecutar con datos españoles una serie de modelos para medir la virulencia de diversos subtipos de gripe. Y todo bien, salvo que para uno de ellos y determinados grupos de edad… a mayor prevalencia, menor mortalidad. ¡Estupendo!

Todo sucede porque un coeficiente que debería haber sido necesariamente positivo fue estimado como negativo (además, significativamente).

Y el coeficiente tenía el signo cambiado (¡error de tipo S!) debido a una serie de problemas sobradamente conocidos:

Política y varianza

Será por deformación profesional, pero en los discursos electorales y particularmente en los recentísimos discursos electorales no dejo de advertir subrepticias referencias a la varianza. Casi siempre, además, presentada negativamente.

Y no, no me refiero únicamente a lo de Gini y sus secuaces.

Aún recuerdo cuando la política (o su manifestación más folclórica y electoralista) hacía más hincapié en la media (de diversos indicadores, para incrementarla, supongo).

Yo, mientras, a contramano: el nombre de mi misma empresa es latín para un concepto muy relacionado con el v-enemigo político.

Análisis y predicción de series temporales intermitentes

Hace tiempo me tocó analizar unas series temporales bastante particulares. Representaban la demanda diaria de determinados productos y cada día esta podía ser de un determinado número de kilos. Pero muchas de las series eran esporádicas: la mayoría de los días la demanda era cero.

Eran casos de las llamadas series temporales intermitentes.

Supongo que hay muchas maneras de modelizarlas y, así, al vuelo, se me ocurre pensar en algo similar a los modelos con inflación de ceros. Es decir, modelar la demanda como una mixtura de dos distribuciones, una, igual a 0 y otra >0, de manera que la probabilidad de la mixtura, $latex p_t$, dependa del tiempo y otras variables de interés.

DLMs

O Distributed Lag Models (véase, por ejemplo, dLagM).

Son modelos para estimar el impacto de una serie temporal sobre otra en situaciones como la siguientes:

  • Una serie mide excesos de temperaturas (en verano).
  • La otra, defunciones.

Existe un efecto causal (débil, pero medible) de la primera sobre la segunda. Pero las defunciones no ocurren el día mismo en que ocurren los excesos de temperaturas, sino que suelen demorarse unos cuantos días.

r -> d -> p -> q

Primero fue la r (runif, rnorm, rpois,…).

De la r surgió el histograma.

Y el histograma era casi siempre parecido.

Y aquello a lo que se parecía se llamó d (dunif, dnorm, etc.).

Y era bueno.

(Obviamente, debidamente normalizado con integral 1, algo sobre lo que afortunadamente la tontuna de las identidades culturales aún no ha protestado).

La p, una integral de la d, es una conveniencia que permite contestar rápido determinadas preguntas razonables y habituales.

Gente que toma la causalidad en vano

Me refiero a los autores de El impacto de Airbnb en el mercado de vivienda de Barcelona, que a partir de datos puramente observacionales y en un artículo de apenas 1500 palabras, mencionan la causalidad siete veces. Además, escriben joyas como

[N]uestra investigación se basa en un modelo de econometría lineal (y no de econometría espacial) ya que nuestro objetivo principal es hacer un análisis causal robusto.

Ya sabes: si quieres un análisis causal robusto, el modelo lineal (chupatesa, Pearl).

¿Tienes un sistema predictivo guay? Vale, pero dame los dos números

No, no me vale que me digas que aciertas el 97% de las veces. Dime cuántas veces aciertas cuando sí y cuántas veces aciertas cuando no.

Si no, cualquiera.

Nota: estaba buscando la referencia a la última noticia de ese estilo que me había llegado, pero no la encuentro. No obstante, seguro, cualquier día de estos encontrarás un ejemplo de lo que denuncio.

Se non è vero, non è vero (¡qué se le va a hacer!)

Me llegó por fuentes habitualmente fiables el vídeo

que se resume en que el apagón del día 29 de septiembre en Tenerife, es decir, esta cosa tan horrorosa

fue producto de la variabilidad de la producción de la energía eólica. En particular, de una bajada drástica de la aportación de la eólica al mix consecuencia de un descenso en la intensidad del viento. Lo cual, de ser cierto, debería convertirse en referencia básica para ilustrar los perniciosos efectos de la variabilidad, etc.

El modelo son las conclusiones

El título es un tanto exagerado, tal vez tanto como el aforismo de McLuhan que lo inspira. Pero no pudo dejar de ocurrírseme al ver el gráfico

acompañado del tuit

Es increíble: un mapa de contaminación por NO2 con una enorme resolución tanto espacial (a nivel de manzana, prácticamente) como temporal (¡correla con la intensidad del tráfico!).