¿Victoria o diferencia de puntos? ¿lm o glm?
Supongamos que queremos construir un modelo para predecir quién ganará un determinado partido de baloncesto basándonos en datos diversos. Y en un histórico, por supuesto.
Podemos utilizar una regresión logística así:
set.seed(1234)
my.coefs <- -2:2
n <- 200
train.n <- floor(2*n/3)
test.error.glm <- function(){
  X <- matrix(rnorm(n*5), n, 5)
  Y <- (0.2 + X %*% my.coefs + rnorm(n)) > 0
  train <- sample(1:n, train.n)
  X <- as.data.frame(X)
  X$Y <- Y
  mod.glm <- glm(Y ~ ., data = X[train,],
    family = binomial)
  glm.pred <- predict(mod.glm, X[-train,],
    type = "response")
  error <- length(glm.pred) -
    sum(diag(table(glm.pred > 0.5, Y[-train,])))
}
errores.glm <- replicate(1000, test.error.glm())El código anterior hace lo siguiente:
 
 
