correlación

La multivarianza total de la distancia no implica causalidad

Quería ser el primero en escribirlo. Para la posteridad. Tenemos la correlación/covarianza, con todos sus usos y abusos. En el 2011 se habló un tiempo de esto. Luego nunca más se supo. La de Hellinger tiene un añito y un paquete en CRAN, menos trabajo de relaciones públicas y, no obstante, el mismo éxito que la anterior. Y este año se añade a la lista la multivarianza de la distancia que, bueno, ¿qué queréis que os diga que no sea trivialmente extrapolable de lo anterior?

Colinealidad y posterioris

En esta entrada voy a crear un conjunto de datos donde dos variables tienen una correlación muy alta, ajustar un modelo de regresión y obtener la siguiente representación de la distribución a posteriori de los coeficientes, donde se aprecia el efecto de la correlación entre x1 y x2. El código, 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 library(mvtnorm) library(rstan) library(psych) n <- 100 corr_coef <- .

Goodhart, Lucas y todas esas cosas

Como me da vergüenza que una búsqueda de Goodhart en mi blog no dé resultados, allá voy. Lo de Goodhart, independientemente de lo que os hayan contado, tiene que ver con es decir, un gráfico causal hiperbásico. Si la variable de interés y es difícil de medir, resulta tentador prestar atención a la variable observable x y usarla como proxy. Todo bien. Pero también puede interesar operar sobre y y a cierta gente le puede sobrevenir la ocurrencia de operar sobre x con la esperanza de que eso influya sobre y.

Como no podemos medir X, usamos Y; pero luego, en las conclusiones, no criticamos Y sino X

Ayer estuve leyendo un artículo (arg, y perdí la referencia; pero da igual para la discusión, porque es genérica) en el que trataba de atribuir diferencias de mortalidad a diversas causas: diabetes, tabaco, alcohol,… y SES (estado socioeconómico). El gran resultado más reseñable (por los autores) era que un SES bajo implicaba nosecuántos años menos de vida, incluso descontando el efecto del resto de los factores (y no recuerdo si estudiaban las correlaciones entre ellos, etc.

¿Qué más se supo de la correlación del s. XXI?

No os acordáis porque pasó en 2011. Yo tampoco me acordaba hasta que me volvió a la cabeza no sé bien por qué motivo. Pero durante un par de semanas hubo revuelo porque unos tipos habían descubierto una medida de correlación mucho mejor que la correlación, etc. Creo que hasta salió publicado en prensa. Yo escribí al respecto, claro está. Ocho años después, nada. Y lo mismo, supongo, con tantas, tantas y tantas cosas.

Las correlaciones positivas, ¿son transitivas?

No. Por ejemplo, 1 2 3 4 5 6 7 8 9 10 11 12 13 14 set.seed(155) n <- 1000 x <- rnorm(n) y <- x + rnorm(n) z <- y - 1.5 * x m <- cbind(x, y, z) print(cor(m), digits = 2) # x y z #x 1.00 0.72 -0.41 #y 0.72 1.00 0.34 #z -0.41 0.34 1.00 La correlación de x con y es positiva; también la de y con z.

Más sobre correlaciones espurias y más sobre correlación y causalidad

Hoy toca esto: Esto es lo que provoca la contaminación: los picos de contaminación coinciden con un aumento radical en los ingresos de los hospitales https://t.co/GpEBg6hqko pic.twitter.com/tvwS1r3Ldi — Ignacio Escolar (@iescolar) November 23, 2017 Se trata de una invitación para leer el artículo Los picos de contaminación coinciden con un aumento radical en los ingresos hospitalarios, un cúmulo de desafueros epilogados por el ya habitual Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga.

Vivir del ruido

Tienes acceso a la serie histórica de hospitalizaciones (p.e. en Madrid) por diversas (muchas) causas. Tienes acceso a la serie histórica de mediciones de distintos factores ambientales (p.e., en Madrid): ruido, óxidos de nitrógeno, partículas en suspensión,… Buscas correlaciones (y, por supuesto, las encuentras). Les asocias p-valore espurios. Lo escribes en inglés (frecuentemente) y publicas: Effect of Environmental Factors on Low Weight in Non-Premature Births: A Time Series Analysis Effects of noise on telephone calls to the Madrid Regional Medical Emergency Service (SUMMA 112) Short-term association between environmental factors and hospital admissions due to Dementia in Madrid Impacto de la contaminación asociada al tráfico y la temperatura sobre variables adversas al nacimiento en Madrid.

qgraph para representar grafos que son correlaciones que son vinos

r
Me vais a permitir que escriba una entrada sin mayores pretensiones, inspirada en y adaptada de aquí y que sirva solo de que para representar correlaciones entre variables podemos recurrir a los grafos como en 1 2 3 4 5 6 7 library(qgraph) wine.quality <- read.csv("https://goo.gl/0Fz1S8", sep = ";") qgraph(cor(wine.quality), shape= "circle", posCol = "darkgreen", negCol= "darkred", layout = "groups", vsize=13) que pinta mostrando resumidamente cómo se relacionan entre sí determinadas características de los vinos y cómo en última instancia influyen en su calidad (qlt).

La inesperada correlación de los ratios

Tomemos dos variables aleatorias independientes y positivas, 1 2 3 4 set.seed(123) n <- 100 x <- runif(n) + 0.5 y <- runif(n) + 0.5 No tengo ni que decir que su correlación es prácticamente cero, 1 2 cor(x,y) #-0.0872707 y que en su diagrama de dispersión tampoco vamos a poder leer otra cosa: Ahora generamos otra variable independiente de las anteriores, 1 z <- runif(n) + 0.