El otro día me pasaron unos datos artificiales para poder probar el ajuste de cierto tipo de modelos. El autor de la simulación construyó tres conjuntos de pares (x,y) y luego los agregó (media de los y agrupando por x) antes de proporcionármelos.

¿Tiene sentido agregar antes de modelar? Incluso sin entrar en el problema del potencial número desigual de observaciones por punto (datos desbalanceados) o las heterogeneidades entre las distintas iteraciones (que nos llevaría al mundo de los modelos mixtos).

Nah, no tiene sentido agregar de esa manera. Mejor modelar los datos con observaciones repetidas. Y quien no esté convencido, que pruebe

library(plyr)

x <- seq(0, 1, by = .3)
nreps <- 100

raw_data <- data.frame(x = x,
    y = rnorm(nreps * length(x), 0, .1))
raw_data$y <- 1 + .5 * raw_data$x + raw_data$y

agg_data <- ddply(raw_data, .(x),
    summarize, y = mean(y))

model_raw <- lm(y ~ x, data = raw_data)
model_agg <- lm(y ~ x, data = agg_data)

summary(model_raw)
summary(model_agg)