Más sobre las R² pequeñas
I.
Si uno hace
n <- 1000
# dos clases del mismo tamaño n
x <- c(rep(0, n), rep(1, n))
# mean(y0) = .45, mean(y1) = .55
y0 <- y1 <- rep(0, n)
y0[1:(.45 * n)] <- 1
y1[1:(.55 * n)] <- 1
# mean(y) = .5
y <- c(y0, y1)
summary(lm(y ~ x))
obtiene
Residuals:
Min 1Q Median 3Q Max
-0.55 -0.45 0.00 0.45 0.55
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.45000 0.01574 28.590 < 2e-16 ***
x 0.10000 0.02226 4.492 7.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4977 on 1998 degrees of freedom
Multiple R-squared: 0.01, Adjusted R-squared: 0.009505
F-statistic: 20.18 on 1 and 1998 DF, p-value: 7.444e-06
donde quiero subrayar que la R² es del 1% o muy pequeña.
II.
Hay dos maneras de entender los resultados del ejercicio anterior (y, en particular, del pequeño valor de la R²).
El primero, más o menos, automático, nos dice que el modelo no es particularmente informativo: apenas mejora el modelo vacío que predice siempre mean(y) = .5
.
Sin embargo, también se puede argumentar que el modelo es sumamente informativo, como aquí, donde se da la siguiente interpretación:
x
representa el estado,y
indica si un ciudadano (del estadox
) vota al partido republicano.
Entonces, el modelo nos cuenta que el estado x = 0
es (profundamente) demócrata y el otro, (profundamente) republicano. Por lo que el modelo es muy informativo: casi seguro, las políticas implementadas en los dos estados van a ser muy distintas entre sí.
III.
Este ejemplo está hermanado con esos en los que se confronta la significancia estadística y la no estadística. Podría decirse aquí también que la R² está correlacionada con el concepto de interés extra-estadístico, pero que no está perfectamente identificado con él.
Y, por supuesto, recuérdese Sobre las R² pequeñas y sus interpretaciones.