Regresión

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge. ...

¿Cómo se interpretan los resultados de estas regresiones

Esta entrada trata sobre las aparentes contradicciones que surgen cuando se comparan las regresiones $y \sim x$ y $x \sim y$. En particular, aquí se muestran y que vienen a decir: El tal Rodgers rinde por encima de lo que se espera para su salario. Para lo que rinde, gana demasiado. Lo cual, a pesar de lo contradictorio, no es un fenómeno extrañísimo. Si uno hace n <- 100 x <- rnorm(n) a <- .3 b <- .5 y <- a * x + b + 0.1 * rnorm(100) reg1 <- lm(y ~ x) reg2 <- lm(x ~ y) which.1 <- y > predict(reg1, data.frame(x = x)) which.2 <- x > predict(reg2, data.frame(y = y)) tmp <- cbind(which.1, which.2) tmp <- which(tmp[,1] & tmp[,2]) ab <- coef(reg2) plot(x, y) abline(reg1, col = "blue") abline(b = 1/ ab[2], a = - ab[1] / ab[2], col = "green") points(x[tmp], y[tmp], col = "red", pch = 16) puede obtener tantos gráficos de la forma ...

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

I. Comenzaré por los dos relatos. El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022: El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico. El segundo relato está también resumido en otro gráfico, ...

Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos

Todo esto arranca con el tuit: En conjunto, como digo, los países con Estados grandes tienden a ser poco progresivos pic.twitter.com/oeI6hkUZwd — Juan Ramón Rallo (@juanrallo) February 1, 2021 Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R². ...

La regresión logística como el modelo más simple posible (que...)

Problema de regresión. Queremos $y = f(\mathbf{x})$. Lo más simple que podemos hacer: fiarlo todo a Taylor y escribir $ y = a_0 + \sum_i a_i x_i$. Problema de clasificación. Lo más simple que podemos hacer, de nuevo: linealizar. Pero la expresión lineal tiene rango en $(-\infty, \infty)$. Solución, buscar la función $f$ más sencilla que se nos pueda ocurrir de $(-\infty, \infty)$ en $[0, 1]$. Entonces, $y = f(a_0 + \sum_i a_i x_i)$.

Cosas que ocurrirán sin lugar a dudas tras el coronavirus

Hay mucha incertidumbre sobre cómo será el mundo post-coronavirus. Pero una cosa es segura: tendremos gráficas tales como hasta en la sopa. La buena noticia para quienes son ellos y su ideología, es que hay tantos grados de libertad, i.e., la posibilidad de elegir muy cuidadosamente las variables que colocar en el eje x, las fuentes, los años de los datos, etc., los indicadores que colocar en el eje y, los países, provincias, regiones, etc., que incluir o excluir en la gráfica, que, ¡enhorabuena!, van poder esgrimir en las redes sociales la pendiente que más le convenga. ...

10k regresiones truchas para que cada cual elija la que más le cuadre

¿Recordáis la época en que existía una monocausa omnicacoexplicativa? Era la desigualdad que, a través de inefables mecanismos, generaba todo tipo de calamidades: infelicidad, enfermedad, inestabilidad política, etc. Tal se sostiene en, p.e., The Spirit Level: Why More Equal Societies Almost Always Do Better, un libro donde se argumenta alrededor de gráficas tales como Sin embargo, otro librito, The Spirit Level Delusion, revisitó esas cuestiones poco después y se dio cuenta de que si en lugar de tomar los datos de la fuente A los tomaba de la B; que si en lugar de usar cifras del año tal se usaba las del año cual; si se incluía el país X que aquellos habían considerado y se sacaba el Y, que solo se representaba a sí mismo, uno obtenía cosas tales como ...

¿Lineal o logística?

Hay cosas tan obvias que ni se plantea la alternativa. Pero luego va R. Gomila y escribe Logistic or Linear? Estimating Causal Effects of Treatments on Binary Outcomes Using Regression Analysis que se resume en lo siguiente: cuando te interese la explicación y no la predicción, aunque tu y sea binaria, usa regresión lineal y pasa de la logística. Nota: La sección 4.2 de An Introduction to Statistical Learning se titula precisamente Why Not Linear Regression?

¡Son todos igualitos!

Y me refiero a extraído de aquí y lo que escribí ayer sobre la regresión con discontinuidades.

Regresiones con discontinuidad y grados de libertad

Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores que ilustra el resultado principal del artículo discutido aquí. Mario, un lector del artículo nos quita la palabra de la boca a todos: No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos. […] ...