¿Cómo aleatorizan las columnas los RRFF?: un experimento mental y una coda histórica
I. El experimento mental
Tienes una variable binaria y
y 100 variables predictoras de las cuales 99 son puro ruido y la última es igual a y
. En código,
n <- 1000
y <- as.factor(rbinom(n, 1, .4))
x <- matrix(rnorm(n*100), n, 100)
x[,100] <- y
El objetivo consiste, obviamente, en predecir y
en función de x
.
II. RRFF
Los RRFF, como es bien sabido, son conjuntos de n
árboles construidos sobre los mismos datos. La predicción final se realiza por consenso. Obviamente, si todos los árboles se construyen sobre las mismas filas y las mismas columnas, el resultado es equivalente a construir un único árbol. Por eso, aleatorizan. Aleatorizan filas y columnas. Voy a obviar el asunto de las filas y me voy a concentrar en el de las columnas.