\[N \sim \text{Pois}(\lambda)\]
y el problema consiste en estimar \(\lambda\) a partir de datos (pista: la media es el emv)
cada \(N_i\) tiene variables \(x_{i1}, \dots x_{in}\)
glm
: prácticamente la solución más sencilla
el \(\lambda_i\) de cada \(N_i\) se estima como
\[N_i \sim \text{Pois}\left(\exp\left(a_0 + \sum_j a_j x_{ij}\right)\right)\]
cada \(N_i\) (o día) tiene una distribución diferente
las variables \(x_{i1}, \dots x_{in}\) usadas no recogen toda la información necesaria para caracterizarlos
recordad, en lm
: \(y_i = a_0 + \sum_j a_j x_{ij} + \epsilon_i\)
sin embargo, en glm
\[N_i \sim \text{Pois}\left(\exp\left(a_0 + \sum_j a_j x_{ij}\right)\right)\]
\[\log(\lambda_i) \sim N\left(a_0 + \sum_j a_j x_{ij}, \,\sigma \right)\]
(o bien, \(\log(\lambda_i) \sim a_0 + \sum_j a_j x_{ij} + \epsilon_i\))
\[N_i \sim \text{Pois}(\lambda_i)\]
Es decir, un modelo con dos fuentes de aleatoriedad: en la estimación de \(\lambda\) y en la predicción.
glm
lme4
, stan
, casi seguro en INLA,…