Más sobre la presunta sobredispersión en el modelo de Poisson

[Esta entrada abunda sobre la de ayer y sin la cual no se entiende.] Generemos unos datos, las x: n <- 1000 sigma <- .5 x <- rep(-2:2, each = n) x_real <- -1 + .5 * x + rnorm(length(x), 0, sigma) En el bloque anterior hemos creado una/la variable observada, x, el término lineal que operará en el modelo de Poisson, -1 + .5 * x, y el real, -1 + .5 * x + rnorm(length(x), 0, sigma), que agrega al anterior el impacto de otras variables no tenidas en cuenta a través de un error normal al uso. ...

17 de julio de 2020 · Carlos J. Gil Bellosta

No, tus datos no "tienen sobredispersión": es que el gato de Nelder se ha merendado la epsilon

El modelo de Poisson viene a decir que si y es una variable con valores 0, 1,… y x1,…, xn son variables explicativas tiene cierto sentido en algunos casos plantear un modelo de la forma $$ y | x_i \sim \text{Pois}(\exp(a_0 + \sum_i a_i x_i) ),$$ Es decir , para cada combinación de las xi, el modelo proporciona el parámetro de una distribución de Poisson de la que y es una realización. Hay una incertidumbre (o un error irreductible) que reside en que de y solo conocemos la distribución. ...

16 de julio de 2020 · Carlos J. Gil Bellosta

Sobre el efecto medio

Traduzco de aquí: En estadística y econometría se habla a menudo del efecto medio de un tratamiento. A menudo, he sido [Gelman] escéptico con respecto al efecto medio por la sencilla razón de que, si se trata de un efecto medio, se está reconociendo la posibilidad de variación; y si hay una variación importante (tanto como para hablar del efecto medio y no solo del efecto) es que nos preocupa tanto que deberíamos estudiarla directamente en lugar de reducirla a su promedio. ...

14 de julio de 2020 · Carlos J. Gil Bellosta

¿Qué queda de la "estadística robusta" clásica?

Estos días estoy muy atento a todo lo que tiene que ver con estadística robusta. El motivo es doble: Estoy involucrado en un proyecto donde quieren ajustar ciertos modelos usando funciones de pérdida robustas (Huber, Tukey, etc.). Hay una $1 > p > 0$ de que me toque meter mano a MOMO y sus derivados para que lo del coronavirus no joda los contrafactuales de 2021 y sucesivos (¿bastará con eliminar unos cuantos meses de 2020?). Así las cosas, ha aterrizado en mi tableta The Changing History of Robustness, donde, el autor, Stigler: ...

8 de julio de 2020 · Carlos J. Gil Bellosta

Sobremuestreando x (y no y)

Construyo unos datos (artificiales, para conocer la verdad): n <- 10000 x1 <- rnorm(n) x2 <- rnorm(n) probs <- -2 + x1 + x2 probs <- 1 / (1 + exp(-probs)) y <- sapply(probs, function(p) rbinom(1, 1, p)) dat <- data.frame(y = y, x1 = x1, x2 = x2) Construyo un modelo de clasificación (logístico, que hoy no hace falta inventar, aunque podría ser cualquier otro): summary(glm(y ~ x1 + x2, data = dat, family = binomial)) #Call: #glm(formula = y ~ x1 + x2, family = binomial, data = dat) # #Deviance Residuals: # Min 1Q Median 3Q Max #-2.2547 -0.5967 -0.3632 -0.1753 3.3528 # #Coefficients: # Estimate Std. Error z value Pr(>|z|) #(Intercept) -2.05753 0.03812 -53.97 <2e-16 *** #x1 1.01918 0.03386 30.10 <2e-16 *** #x2 1.00629 0.03405 29.55 <2e-16 *** #--- #Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # #(Dispersion parameter for binomial family taken to be 1) # # Null deviance: 9485.2 on 9999 degrees of freedom #Residual deviance: 7373.4 on 9997 degrees of freedom #AIC: 7379.4 # #Number of Fisher Scoring iterations: 5 Correcto. ...

29 de junio de 2020 · Carlos J. Gil Bellosta

Sobre predicciones puntuales

Como tan a menudo se nos olvida, Taleb nos recuerda, breve y conciso, un par de cositas sobre las predicciones puntuales aquí. Además, casi todo lo que tiene que decir se resume en:

25 de junio de 2020 · Carlos J. Gil Bellosta

La regresión logística como el modelo más simple posible (que...)

Problema de regresión. Queremos $y = f(\mathbf{x})$. Lo más simple que podemos hacer: fiarlo todo a Taylor y escribir $ y = a_0 + \sum_i a_i x_i$. Problema de clasificación. Lo más simple que podemos hacer, de nuevo: linealizar. Pero la expresión lineal tiene rango en $(-\infty, \infty)$. Solución, buscar la función $f$ más sencilla que se nos pueda ocurrir de $(-\infty, \infty)$ en $[0, 1]$. Entonces, $y = f(a_0 + \sum_i a_i x_i)$.

24 de junio de 2020 · Carlos J. Gil Bellosta

RuleFit

El otro día me sentí culpable porque me preguntaron sobre RuleFit y tuve que hacer un Simón (aka, me lo estudio para mañana). Y como mañana fue antier, lo que sigue. Hay descripciones estándar de RuleFit (p.e., esta o la del artículo original) pero me voy a atrever con una original de mi propio cuño. Comenzamos con lasso. Lasso está bien, pero tiene una limitación sustancial: se le escapan las iteracciones (vale, admito que lo anterior no es universalmente exacto, pero lo es casi y eso me vale). Entonces, la pregunta es: ¿cómo introducir interacciones en lasso? ...

19 de junio de 2020 · Carlos J. Gil Bellosta

Explicación de modelos

Este es el primer año en el que en mi curso de ciencia de datos (hasta ahora en el EAE; a partir del año que viene, vaya uno a saber si y dónde) introduzco una sección sobre explicación de modelos. Hay quienes sostienen que, mejor que crear un modelo de caja negra y tratar luego de explicar las predicciones, es recomendable comenzar con un modelo directamente explicable (p.e., un GLM). Por mucha razón que traigan, vox clamantis in deserto: hay y seguirá habiendo modelos de caja negra por doquier. ...

12 de junio de 2020 · Carlos J. Gil Bellosta

53 (o, ¿cuál es la prior?)

En la documentación técnica del estudio ENE-COVID19 (recuérdese: INE + ISCIII) se describe un estudio de fiabilidad previo del test rápido (sección A1.2) que se anuncia así: Según el fabricante, el test tiene una sensibilidad del 88% y 97% para determinar IgM e IgG respectivamente, y una especificidad de 100% frente a ambos isótopos. Para comprobar el comportamiento del test elegido, se han llevado a cabo dos estudios de fiabilidad. Veamos en qué consisten. ...

9 de junio de 2020 · Carlos J. Gil Bellosta