El otro día me pasaron unos datos artificiales para poder probar el ajuste de cierto tipo de modelos. El autor de la simulación construyó tres conjuntos de pares (x,y) y luego los agregó (media de los y agrupando por x) antes de proporcionármelos.
¿Tiene sentido agregar antes de modelar? Incluso sin entrar en el problema del potencial número desigual de observaciones por punto (datos desbalanceados) o las heterogeneidades entre las distintas iteraciones (que nos llevaría al mundo de los modelos mixtos).
Nah, no tiene sentido agregar de esa manera. Mejor modelar los datos con observaciones repetidas. Y quien no esté convencido, que pruebe
library(plyr)
x <- seq(0, 1, by = .3)
nreps <- 100
raw_data <- data.frame(x = x,
y = rnorm(nreps * length(x), 0, .1))
raw_data$y <- 1 + .5 * raw_data$x + raw_data$y
agg_data <- ddply(raw_data, .(x),
summarize, y = mean(y))
model_raw <- lm(y ~ x, data = raw_data)
model_agg <- lm(y ~ x, data = agg_data)
summary(model_raw)
summary(model_agg)