Más sobre las R² pequeñas
I.
Si uno hace
n <- 1000
# dos clases del mismo tamaño n
x <- c(rep(0, n), rep(1, n))
# mean(y0) = .45, mean(y1) = .55
y0 <- y1 <- rep(0, n)
y0[1:(.45 * n)] <- 1
y1[1:(.55 * n)] <- 1
# mean(y) = .5
y <- c(y0, y1)
summary(lm(y ~ x))
obtiene
Residuals:
Min 1Q Median 3Q Max
-0.55 -0.45 0.00 0.45 0.55
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.45000 0.01574 28.590 < 2e-16 ***
x 0.10000 0.02226 4.492 7.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4977 on 1998 degrees of freedom
Multiple R-squared: 0.01, Adjusted R-squared: 0.009505
F-statistic: 20.18 on 1 and 1998 DF, p-value: 7.444e-06
donde quiero subrayar que la R² es del 1% o muy pequeña.