Correlación

Supongamos que tenemos un modelo construido sobre unos datos $(x_i, y_i)$. Para cada $x_i$, el valor $y_i$ es una realización de una variable aleatoria $Y_i$ con distribución $F_i(y)$. Por simplificar, podemos suponer, además, que para el ajuste se utiliza el error cuadrático. Entonces, lo mejor que puede hacer el modelo es encontrar la media $\mu_i$ de cada $Y_i$ —bueno, en realidad, querría encontrar $\mu_x$ para cada $x$ potencial, pero hoy vamos a dejar esa discusión aparcada—.

En 2011 escribí sobre la correlación del siglo XXI, un esfuerzo por crear un tipo de coeficiente de correlacion mejor. En 2018 me volví a preguntar sobre el estado de la cosa y a dónde había conducido. Tengo la sensación de que se publicó y, realmente, nunca más se supo del asunto. Casi diez años después tenemos A New Coefficient of Correlation, sin duda mucho mejor que sus antecesores y con un futuro igualmente prometedor.

El vídeo es y abunda sobre el archiconocido correlación no implica causalidad. El artículo de Chris Anderson que se menciona es_ The End of Theory_.

Quería ser el primero en escribirlo. Para la posteridad. Tenemos la correlación/covarianza, con todos sus usos y abusos. En el 2011 se habló un tiempo de esto. Luego nunca más se supo. La de Hellinger tiene un añito y un paquete en CRAN, menos trabajo de relaciones públicas y, no obstante, el mismo éxito que la anterior. Y este año se añade a la lista la multivarianza de la distancia que, bueno, ¿qué queréis que os diga que no sea trivialmente extrapolable de lo anterior?

En esta entrada voy a crear un conjunto de datos donde dos variables tienen una correlación muy alta, ajustar un modelo de regresión y obtener la siguiente representación de la distribución a posteriori de los coeficientes, donde se aprecia el efecto de la correlación entre x1 y x2. El código, library(mvtnorm) library(rstan) library(psych) n <- 100 corr_coef <- .9 x <- rmvnorm(n, c(0, 0), sigma = matrix(c(1, corr_coef, corr_coef, 1), 2, 2)) plot(x) x1 <- x[,1] x2 <- x[,2] x3 <- runif(n) - 0.

Como me da vergüenza que una búsqueda de Goodhart en mi blog no dé resultados, allá voy. Lo de Goodhart, independientemente de lo que os hayan contado, tiene que ver con es decir, un gráfico causal hiperbásico. Si la variable de interés y es difícil de medir, resulta tentador prestar atención a la variable observable x y usarla como proxy. Todo bien. Pero también puede interesar operar sobre y y a cierta gente le puede sobrevenir la ocurrencia de operar sobre x con la esperanza de que eso influya sobre y.

Lo buscaba (véase el último párrafo) y aquí está: The results show that levels of education have hardly any impact on the mortality rate.

Ayer estuve leyendo un artículo (arg, y perdí la referencia; pero da igual para la discusión, porque es genérica) en el que trataba de atribuir diferencias de mortalidad a diversas causas: diabetes, tabaco, alcohol,… y SES (estado socioeconómico). El gran resultado más reseñable (por los autores) era que un SES bajo implicaba nosecuántos años menos de vida, incluso descontando el efecto del resto de los factores (y no recuerdo si estudiaban las correlaciones entre ellos, etc.

No os acordáis porque pasó en 2011. Yo tampoco me acordaba hasta que me volvió a la cabeza no sé bien por qué motivo. Pero durante un par de semanas hubo revuelo porque unos tipos habían descubierto una medida de correlación mucho mejor que la correlación, etc. Creo que hasta salió publicado en prensa. Yo escribí al respecto, claro está. Ocho años después, nada. Y lo mismo, supongo, con tantas, tantas y tantas cosas.

No. Por ejemplo, set.seed(155) n <- 1000 x <- rnorm(n) y <- x + rnorm(n) z <- y - 1.5 * x m <- cbind(x, y, z) print(cor(m), digits = 2) # x y z #x 1.00 0.72 -0.41 #y 0.72 1.00 0.34 #z -0.41 0.34 1.00 La correlación de x con y es positiva; también la de y con z. Pero x y z guardan correlación negativa. Nota: sacado de aquí.

Hoy toca esto: Esto es lo que provoca la contaminación: los picos de contaminación coinciden con un aumento radical en los ingresos de los hospitales https://t.co/GpEBg6hqko pic.twitter.com/tvwS1r3Ldi — Ignacio Escolar (@iescolar) November 23, 2017 Se trata de una invitación para leer el artículo Los picos de contaminación coinciden con un aumento radical en los ingresos hospitalarios, un cúmulo de desafueros epilogados por el ya habitual Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga.

Tienes acceso a la serie histórica de hospitalizaciones (p.e. en Madrid) por diversas (muchas) causas. Tienes acceso a la serie histórica de mediciones de distintos factores ambientales (p.e., en Madrid): ruido, óxidos de nitrógeno, partículas en suspensión,… Buscas correlaciones (y, por supuesto, las encuentras). Les asocias p-valore espurios. Lo escribes en inglés (frecuentemente) y publicas: Effect of Environmental Factors on Low Weight in Non-Premature Births: A Time Series Analysis Effects of noise on telephone calls to the Madrid Regional Medical Emergency Service (SUMMA 112) Short-term association between environmental factors and hospital admissions due to Dementia in Madrid Impacto de la contaminación asociada al tráfico y la temperatura sobre variables adversas al nacimiento en Madrid.

Recorrer multitud de senderos que se bifurcan. Maximizar la correlación. Alegar causalidad. Facturar. Iterar.

Correlación

Sobre la correlación entre Y y la predicción de Y

Otra correlación del siglo XXI

Nuevo vídeo en YouTube. Segunda entrega sobre causalidad (y, esta vez, datos observacionales)

La multivarianza total de la distancia no implica causalidad

Colinealidad y posterioris

Goodhart, Lucas y todas esas cosas

Lo buscaba y aquí está

Como no podemos medir X, usamos Y; pero luego, en las conclusiones, no criticamos Y sino X

¿Qué más se supo de la correlación del s. XXI?

Las correlaciones positivas, ¿son transitivas?

Más sobre correlaciones espurias y más sobre correlación y causalidad

Vivir del ruido

Triste vida