Stepwise

Experimentos con el paquete gbm

No conocía el paquete gbm. Pero como ahora ando rodeado de data scientists que no son estadísticos…

Bueno, la cuestión es que había que ajustar un modelo para el que yo habría hecho algo parecido a

dat <- read.csv("http://www.ats.ucla.edu/stat/data/poisson_sim.csv")
summary(m.glm <- glm(num_awards ~ prog + math, family = "poisson", data = dat))
# Call:
#   glm(formula = num_awards ~ prog + math, family = "poisson", data = dat)
#
# Deviance Residuals:
#   Min       1Q   Median       3Q      Max
# -2.1840  -0.9003  -0.5891   0.3948   2.9539
#
# Coefficients:
#   Estimate Std. Error z value Pr(>|z|)
# (Intercept) -5.578057   0.676823  -8.242   <2e-16 ***
#   prog         0.123273   0.163261   0.755     0.45
# math         0.086121   0.009586   8.984   <2e-16 ***
#   ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# (Dispersion parameter for poisson family taken to be 1)
#
# Null deviance: 287.67  on 199  degrees of freedom
# Residual deviance: 203.45  on 197  degrees of freedom
# AIC: 385.51
#
# Number of Fisher Scoring iterations: 6

como en esta página.

Algunos problemas de la regresión paso a paso ("stepwise")

Fueron problemas planteados por Frank Harrell, recopilados aquí y ahora traducidos por mí para mi bitácora.

Problemas de la regresión paso a paso:

  • La R-cuadrado obtenida está muy sesgada hacia arriba.
  • Los test F y chi-cuadrado que aparecen al lado de las variables no siguen dichas distribuciones.
  • Los intervalos de confianza son demasiado (e incorrectamente) estrechos.
  • Los p-valores obtenidos no tienen el significado esperado y el de corregirlos adecuadamente es un problema muy difícil.
  • Proporciona coeficientes sesgados y excesivamente grandes.
  • Tiene problemas serios en caso de colinealidad en las variables.
  • Está basado en métodos que fueron pensados para probar hipótesis preestablecidas.
  • Incrementar el número de muestras no corrige los problemas anteriores.
  • Nos permite no tener que pensar sobre el problema.
  • Consume mucho papel.

Algunas conclusiones: