El asunto de la separación perfecta en el modelo logístico es sobradamente conocido. Solo quiero añadir al respecto dos cosas que no se suelen decir:
- Es un dolor que solo duele a los frecuentistas que no usan regularización (y van quedando cada vez menos de esos).
- Que no es malo sino bueno: ¿qué cosa mejor que tus datos puedan responder categóricamente las preguntas que les planteas (supuesto, claro, está, un N suficientemente grande).
Lo que es menos conocido es que el problema de la separación perfecta también puede afectar a la regresión de Poisson.
Voy a ilustrarlo con el segundo ejemplo más sencillo que se me ocurre. Supongamos que
$$Y \sim \text{Pois}(X)$$
donde $X$ es una variable aleatoria que toma los valores $a$ y $b$. Supongamos que tenemos una muestra de tamaño $2N$ donde a cada nivel de $X$ le corresponden $N$ casos. Los estimadores por máxima verosimilitud de los coeficientes correspondientes a esos valores son $\log n_a /N$ y $\log n_b /N$ respectivamente.
Pero, ¿qué pasa si $n_a = 0$? El estimador es $-\infty$; aunque, en realidad, acabo de ver que R se come la tostada:
set.seed(1)
N <- 100
x <- rep(c("a", "b"), each = N)
y <- c(rep(0, N), rpois(N, 1))
modelo <- glm(y ~ -1 + x, family = poisson)
summary(modelo)
# Call:
# glm(formula = y ~ -1 + x, family = poisson)
#
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.42127 -0.00997 -0.00006 -0.00006 2.24293
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# xa -20.30259 1554.18637 -0.013 0.99
# xb 0.00995 0.09950 0.100 0.92
#
# (Dispersion parameter for poisson family taken to be 1)
#
# Null deviance: 292.635 on 200 degrees of freedom
# Residual deviance: 92.625 on 198 degrees of freedom
# AIC: 252.98
#
# Number of Fisher Scoring iterations: 18El coeficiente xb es, efectivamente
log(sum(y) / N)
# [1] 0.009950331aunque glm nos engaña y da por convergida una regresión que no lo está. De todos modos, el coeficiente xa tiene un valor de -20 y un error estándar de 1554, nada menos, lo que debería hacer saltar alarmas donde hubiere luces.
Para saber más, y para que quede constancia de dónde he sacado todo lo anterior, Bias Reduction as a Remedy to the Consequences of Infinite Estimates in Poisson and Tobit Regression del, entre otros, genial y nunca suficientemente apreciado A. Zeileis.
Coda: Apenas acabo lo anterior, me doy cuenta de que ya había hablado del tema de pasada hace un par de años largos.