Política y varianza
Será por deformación profesional, pero en los discursos electorales y particularmente en los recentísimos discursos electorales no dejo de advertir subrepticias referencias a la varianza. Casi siempre, además, presentada negativamente.
Y no, no me refiero únicamente a lo de Gini y sus secuaces.
Aún recuerdo cuando la política (o su manifestación más folclórica y electoralista) hacía más hincapié en la media (de diversos indicadores, para incrementarla, supongo).
Yo, mientras, a contramano: el nombre de mi misma empresa es latín para un concepto muy relacionado con el v-enemigo político.
Análisis y predicción de series temporales intermitentes
Hace tiempo me tocó analizar unas series temporales bastante particulares. Representaban la demanda diaria de determinados productos y cada día esta podía ser de un determinado número de kilos. Pero muchas de las series eran esporádicas: la mayoría de los días la demanda era cero.
Eran casos de las llamadas series temporales intermitentes.
Supongo que hay muchas maneras de modelizarlas y, así, al vuelo, se me ocurre pensar en algo similar a los modelos con inflación de ceros. Es decir, modelar la demanda como una mixtura de dos distribuciones, una, igual a 0 y otra >0, de manera que la probabilidad de la mixtura, $latex p_t$, dependa del tiempo y otras variables de interés.
DLMs
O Distributed Lag Models (véase, por ejemplo, dLagM
).
Son modelos para estimar el impacto de una serie temporal sobre otra en situaciones como la siguientes:
- Una serie mide excesos de temperaturas (en verano).
- La otra, defunciones.
Existe un efecto causal (débil, pero medible) de la primera sobre la segunda. Pero las defunciones no ocurren el día mismo en que ocurren los excesos de temperaturas, sino que suelen demorarse unos cuantos días.
r -> d -> p -> q
Primero fue la r (runif
, rnorm
, rpois
,…).
De la r surgió el histograma.
Y el histograma era casi siempre parecido.
Y aquello a lo que se parecía se llamó d (dunif
, dnorm
, etc.).
Y era bueno.
(Obviamente, debidamente normalizado con integral 1, algo sobre lo que afortunadamente la tontuna de las identidades culturales aún no ha protestado).
La p, una integral de la d, es una conveniencia que permite contestar rápido determinadas preguntas razonables y habituales.
Gente que toma la causalidad en vano
Me refiero a los autores de El impacto de Airbnb en el mercado de vivienda de Barcelona, que a partir de datos puramente observacionales y en un artículo de apenas 1500 palabras, mencionan la causalidad siete veces. Además, escriben joyas como
[N]uestra investigación se basa en un modelo de econometría lineal (y no de econometría espacial) ya que nuestro objetivo principal es hacer un análisis causal robusto.
Ya sabes: si quieres un análisis causal robusto, el modelo lineal (chupatesa, Pearl).
¿Tienes un sistema predictivo guay? Vale, pero dame los dos números
No, no me vale que me digas que aciertas el 97% de las veces. Dime cuántas veces aciertas cuando sí y cuántas veces aciertas cuando no.
Si no, cualquiera.
Nota: estaba buscando la referencia a la última noticia de ese estilo que me había llegado, pero no la encuentro. No obstante, seguro, cualquier día de estos encontrarás un ejemplo de lo que denuncio.
Se non è vero, non è vero (¡qué se le va a hacer!)
Me llegó por fuentes habitualmente fiables el vídeo
que se resume en que el apagón del día 29 de septiembre en Tenerife, es decir, esta cosa tan horrorosa
fue producto de la variabilidad de la producción de la energía eólica. En particular, de una bajada drástica de la aportación de la eólica al mix consecuencia de un descenso en la intensidad del viento. Lo cual, de ser cierto, debería convertirse en referencia básica para ilustrar los perniciosos efectos de la variabilidad, etc.
El modelo son las conclusiones
El título es un tanto exagerado, tal vez tanto como el aforismo de McLuhan que lo inspira. Pero no pudo dejar de ocurrírseme al ver el gráfico
acompañado del tuit
Nota: la cuenta (y el tuit correspondiente) ya no existen
Es increíble: un mapa de contaminación por NO2 con una enorme resolución tanto espacial (a nivel de manzana, prácticamente) como temporal (¡correla con la intensidad del tráfico!).
Pero la medición del NO2 es o barata o cara. Y si, barata, mala: los sensores bien calibrados son caros y exigen un mantenimiento técnico solo al alcance de los ayuntamientos más pudientes. Y cara es inviable a ese nivel de resolución. Así que el plano es necesariamente mentira (nota: mentira en cursiva no es lo mismo que mentira sin cursiva; el distingo se realiza a continuación).
Consumismo de fricadas: OpenZmeter
No satisfecho con esto por culpa de un lector que me/nos indicó cómo incrementar nuestra resolución temporal, es muy probable que incurra en el gasto que conlleva adquirir un OpenZmeter y poder construir gráficas como
(o, espero, con un nivel de desagregación temporal aún más fino).