Correlación

Unas cuantas notas sobre probabilidad

  • Monty Hall and generative modeling: Drawing the tree is the most important step: Un artículo que invita a pensar los problemas de probabilidad en términos generativos, en cómo se obtienen los resultados, ilustrándolo con el ejemplo clásico del problema de Monty Hall: en lugar de buscar directamente una respuesta, es conveniente dibujar el árbol de probabilidad para aclarar las suposiciones sobre cómo se generan los datos (o decisiones).
  • Why probability probably doesn’t exist (but it is useful to act like it does): Abunda sobre la vieja y manida cuestión sobre si la probabilidad existe objetivamente. Pero esquiva el meollo de la cuestión y se queda en que, como concepto, es extremadamente útil como herramienta para comprender y estudiar el mundo. Incluso si dudamos de la existencia real de la probabilidad, argumenta que es conveniente actuar como si existiera.
  • Yes, your single vote really can make a difference! (in Canada): Se refiere a un caso real ocurrido en Canadá en el que un distrito electoral fue decidido por un solo voto. Es la anécdota que algunos querrán esgrimir contra la categoría de la irracionalidad del voto individual.
  • En Distribution of correlation y en Is the skewness of the distribution of the empirical correlation coefficient asymptotically proportional to the correlation? se analiza un mismo problema, el de la distribución del coeficiente de correlación. Si se toman muestras con una correlación real predefinida y fija $\rho$, se obtiene una distribución asimétrica (necesariamente), cuya asimetría crece con la correlación $\rho$. Cuando las distribuciones son normales, existe solución analítica, pero incluso en ese caso parece más razonable simular.
  • Matt Levine cuenta una historia muy instructiva sobre lanzamientos de monedas en el mundo real:
    1. Entrevistaban a alguien para un trabajo en un hedge fund y le hicieron estudiar las matemáticas (esperanza, desviación estándar) de 1000 lanzamientos de monedas.
    2. Una vez hechos los cálculos, le preguntaron si aceptaría participar en un juego en el que ganaría $0.5 + \epsilon$ de tirar una moneda y que saliese cara.
    3. El tipo dijo que sí.
    4. El entrevistador le contestó: “no, respuesta incorrecta; si te lo ofrecemos, no deberías aceptarlo: tenemos un tipo ahí abajo que saca un 55% de caras”.

"El problema de la academia" y cuatro asuntos más

I.

Aquí dice lo que con mi traducción suena así:

El problema de la academia no es el plagiarismo. En economía, un secreto que la academia guarda celosamente es que casi toda la investigación es inválida o inútil por varios motivos.

¿Qué hacer? No leer.

II.

¿Y en estadística? Aquí se cita la frase

Gran parte de la estadística del siglo XX es una pérdida de tiempo consistente en calcular respuestas precisas a preguntas irrelevantes.

Sobre la correlación entre Y y la predicción de Y

Supongamos que tenemos un modelo construido sobre unos datos $(x_i, y_i)$. Para cada $x_i$, el valor $y_i$ es una realización de una variable aleatoria $Y_i$ con distribución $F_i(y)$. Por simplificar, podemos suponer, además, que para el ajuste se utiliza el error cuadrático.

Entonces, lo mejor que puede hacer el modelo es encontrar la media $\mu_i$ de cada $Y_i$ —bueno, en realidad, querría encontrar $\mu_x$ para cada $x$ potencial, pero hoy vamos a dejar esa discusión aparcada—.

Otra correlación del siglo XXI

En 2011 escribí sobre la correlación del siglo XXI, un esfuerzo por crear un tipo de coeficiente de correlacion mejor. En 2018 me volví a preguntar sobre el estado de la cosa y a dónde había conducido. Tengo la sensación de que se publicó y, realmente, nunca más se supo del asunto.

Casi diez años después tenemos A New Coefficient of Correlation, sin duda mucho mejor que sus antecesores y con un futuro igualmente prometedor. El lector interesado puede aprender más sobre él aquí.

La multivarianza total de la distancia no implica causalidad

Quería ser el primero en escribirlo. Para la posteridad.

Tenemos la correlación/covarianza, con todos sus usos y abusos.

En el 2011 se habló un tiempo de esto. Luego nunca más se supo.

La de Hellinger tiene un añito y un paquete en CRAN, menos trabajo de relaciones públicas y, no obstante, el mismo éxito que la anterior.

Y este año se añade a la lista la multivarianza de la distancia que, bueno, ¿qué queréis que os diga que no sea trivialmente extrapolable de lo anterior?

Colinealidad y posterioris

En esta entrada voy a crear un conjunto de datos donde dos variables tienen una correlación muy alta, ajustar un modelo de regresión y obtener la siguiente representación de la distribución a posteriori de los coeficientes,

donde se aprecia el efecto de la correlación entre x1 y x2.

El código,

library(mvtnorm)
library(rstan)
library(psych)

n <- 100
corr_coef <- .9

x <- rmvnorm(n, c(0, 0),
  sigma = matrix(c(1, corr_coef, corr_coef, 1), 2, 2))
plot(x)

x1 <- x[,1]
x2 <- x[,2]
x3 <- runif(n) - 0.5

y <- 1 + .4 * x1 - .2 * x2 + .1 * x3 + rnorm(n, 0, .1)

summary(lm(y ~ x1 + x2 + x3))

stan_code <- "
data {
  int N;
  vector[N] y;
  vector[N] x1;
  vector[N] x2;
  vector[N] x3;
}
parameters {
  real a;
  real a1;
  real a2;
  real a3;
  real sigma;
}

model {
  a ~ cauchy(0,10);
  a1 ~ cauchy(0,2.5);
  a2 ~ cauchy(0,2.5);
  a3 ~ cauchy(0,2.5);

  y ~ normal(a + a1 * x1 + a2 * x2 + a3 * x3, sigma);
}"


datos_stan <- list(
    N = n,
    y = y,
    x1 = x1,
    x2 = x2,
    x3 = x3
)

fit2 <- stan(model_code = stan_code,
              data = datos_stan,
              iter = 10000, warmup = 2000,
              chains = 2, thin = 4)

res <- as.data.frame(fit2)
pairs.panels(res[, c("a", "a1", "a2", "a3", "sigma")])

Goodhart, Lucas y todas esas cosas

Como me da vergüenza que una búsqueda de Goodhart en mi blog no dé resultados, allá voy. Lo de Goodhart, independientemente de lo que os hayan contado, tiene que ver con

es decir, un gráfico causal hiperbásico. Si la variable de interés y es difícil de medir, resulta tentador prestar atención a la variable observable x y usarla como proxy. Todo bien.

Pero también puede interesar operar sobre y y a cierta gente le puede sobrevenir la ocurrencia de operar sobre x con la esperanza de que eso influya sobre y.

Como no podemos medir X, usamos Y; pero luego, en las conclusiones, no criticamos Y sino X

Ayer estuve leyendo un artículo (arg, y perdí la referencia; pero da igual para la discusión, porque es genérica) en el que trataba de atribuir diferencias de mortalidad a diversas causas: diabetes, tabaco, alcohol,… y SES (estado socioeconómico).

El gran resultado más reseñable (por los autores) era que un SES bajo implicaba nosecuántos años menos de vida, incluso descontando el efecto del resto de los factores (y no recuerdo si estudiaban las correlaciones entre ellos, etc., como se debe en un estudio con pretensiones causales).