de momo a la sobredispersión

2020-09-18

carlos j. gil bellosta
@gilbellosta
datanalytics.com · circiter.es

motivación

momo

momocalor

otros veranos

la distribución de poisson

bernoulli

binomial

¿micromuertes?

evento: don x está sano y vivo a las 8:00; a las 23:59 está en el tanatorio
probabilidad: ~ 1 entre un millón (en países occidentales)

poisson

es una aproximación a la binomial cuando \(N\) es grande
\(N \times p\) es la tasa \(\lambda\)
lo anterior es una caracterización útil de la poisson
sobre todo, nos indica dónde y cómo se puede usar

dualidad binomial-poisson y micromuertes

física: dualidad onda-partícula
estadística / conteos: dualidad binomial-poisson
por tanto, se puede decir que en españa se dan ~50 eventos como los de don x al día

el modelo de poisson

hagamos física

\[N \sim \text{Pois}(\lambda)\]

y el problema consiste en estimar \(\lambda\) a partir de datos (pista: la media es el emv)

fuera de la física…

los sujetos son heterogéneos
cada \(N_i\) tiene su propia \(\lambda_i\)
¿?

glm

cada \(N_i\) tiene variables \(x_{i1}, \dots x_{in}\)
glm: prácticamente la solución más sencilla
el \(\lambda_i\) de cada \(N_i\) se estima como
- función lineal de las \(x_{i1}, \dots x_{in}\)
- y se le hace \(\exp\) para garantizar \(\lambda_i > 0\)

\[N_i \sim \text{Pois}\left(\exp\left(a_0 + \sum_j a_j x_{ij}\right)\right)\]

sobredispersión

digresión: infradispersión

infradispersión en rusia

sobredispersión

en momocalor

cada \(N_i\) (o día) tiene una distribución diferente
las variables \(x_{i1}, \dots x_{in}\) usadas no recogen toda la información necesaria para caracterizarlos
recordad, en lm: \(y_i = a_0 + \sum_j a_j x_{ij} + \epsilon_i\)
sin embargo, en glm

\[N_i \sim \text{Pois}\left(\exp\left(a_0 + \sum_j a_j x_{ij}\right)\right)\]

una formulación alternativa

\[\log(\lambda_i) \sim N\left(a_0 + \sum_j a_j x_{ij}, \,\sigma \right)\]

(o bien, \(\log(\lambda_i) \sim a_0 + \sum_j a_j x_{ij} + \epsilon_i\))

\[N_i \sim \text{Pois}(\lambda_i)\]

Es decir, un modelo con dos fuentes de aleatoriedad: en la estimación de \(\lambda\) y en la predicción.

implementación

por supuesto, no en glm
se puede plantear en lme4, stan, casi seguro en INLA,…
se pueden consultar algunos ejemplos en mi blog

nota final

me he centrado en modelos de poisson
pero todo lo anterior aplica casi palabra por palabra al modelo logístico
¿no habéis notado que el modelo beta-binomial converge demasiado rápido?

de momo a la sobredispersión

2020-09-18

carlos j. gil bellosta
@gilbellosta
datanalytics.com · circiter.es

motivación

momo

momocalor

otros veranos

la distribución de poisson

bernoulli

binomial

¿micromuertes?

poisson

dualidad binomial-poisson y micromuertes

el modelo de poisson

hagamos física

fuera de la física…

glm

sobredispersión

digresión: infradispersión

infradispersión en rusia

sobredispersión

en momocalor

una formulación alternativa

una formulación alternativa

implementación

nota final

nota final

vale.

... aunque la conversación continúa en:

http://circiter.es · @gilbellosta · http://datanalytics.com

¡muchas gracias!

de momo a la sobredispersión

2020-09-18

carlos j. gil bellosta @gilbellosta datanalytics.com · circiter.es

motivación

momo

momocalor

otros veranos

la distribución de poisson

bernoulli

binomial

¿micromuertes?

poisson

dualidad binomial-poisson y micromuertes

el modelo de poisson

hagamos física

fuera de la física…

glm

sobredispersión

digresión: infradispersión

infradispersión en rusia

sobredispersión

en momocalor

una formulación alternativa

una formulación alternativa

implementación

nota final

nota final

vale.

... aunque la conversación continúa en:

http://circiter.es · @gilbellosta · http://datanalytics.com

¡muchas gracias!

carlos j. gil bellosta
@gilbellosta
datanalytics.com · circiter.es