de momo a la sobredispersión

2020-09-18

carlos j. gil bellosta
@gilbellosta
datanalytics.com · circiter.es

motivación

momo

momocalor

otros veranos

la distribución de poisson

bernoulli

binomial

¿micromuertes?

  • evento: don x está sano y vivo a las 8:00; a las 23:59 está en el tanatorio
  • probabilidad: ~ 1 entre un millón (en países occidentales)

poisson

  • es una aproximación a la binomial cuando \(N\) es grande
  • \(N \times p\) es la tasa \(\lambda\)
  • lo anterior es una caracterización útil de la poisson
  • sobre todo, nos indica dónde y cómo se puede usar

dualidad binomial-poisson y micromuertes

  • física: dualidad onda-partícula
  • estadística / conteos: dualidad binomial-poisson
  • por tanto, se puede decir que en españa se dan ~50 eventos como los de don x al día

el modelo de poisson

hagamos física

\[N \sim \text{Pois}(\lambda)\]

y el problema consiste en estimar \(\lambda\) a partir de datos (pista: la media es el emv)

fuera de la física…

  • los sujetos son heterogéneos
  • cada \(N_i\) tiene su propia \(\lambda_i\)
  • ¿?

glm

  • cada \(N_i\) tiene variables \(x_{i1}, \dots x_{in}\)

  • glm: prácticamente la solución más sencilla

  • el \(\lambda_i\) de cada \(N_i\) se estima como

    • función lineal de las \(x_{i1}, \dots x_{in}\)
    • y se le hace \(\exp\) para garantizar \(\lambda_i > 0\)

\[N_i \sim \text{Pois}\left(\exp\left(a_0 + \sum_j a_j x_{ij}\right)\right)\]

sobredispersión

digresión: infradispersión

infradispersión en rusia

sobredispersión

en momocalor

  • cada \(N_i\) (o día) tiene una distribución diferente

  • las variables \(x_{i1}, \dots x_{in}\) usadas no recogen toda la información necesaria para caracterizarlos

  • recordad, en lm: \(y_i = a_0 + \sum_j a_j x_{ij} + \epsilon_i\)

  • sin embargo, en glm

\[N_i \sim \text{Pois}\left(\exp\left(a_0 + \sum_j a_j x_{ij}\right)\right)\]

una formulación alternativa

una formulación alternativa

\[\log(\lambda_i) \sim N\left(a_0 + \sum_j a_j x_{ij}, \,\sigma \right)\]

(o bien, \(\log(\lambda_i) \sim a_0 + \sum_j a_j x_{ij} + \epsilon_i\))

\[N_i \sim \text{Pois}(\lambda_i)\]

Es decir, un modelo con dos fuentes de aleatoriedad: en la estimación de \(\lambda\) y en la predicción.

implementación

  • por supuesto, no en glm
  • se puede plantear en lme4, stan, casi seguro en INLA,…
  • se pueden consultar algunos ejemplos en mi blog

nota final

nota final

  • me he centrado en modelos de poisson
  • pero todo lo anterior aplica casi palabra por palabra al modelo logístico
  • ¿no habéis notado que el modelo beta-binomial converge demasiado rápido?

vale.

... aunque la conversación continúa en:

http://circiter.es · @gilbellosta · http://datanalytics.com

¡muchas gracias!