Estadística

Algunas notas sobre los CIs

I.

Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%:

  • Se toma un dado de 20 caras (como los de rol).
  • Si sale un 1, el intervalo de confianza es el conjunto vacío.
  • Si sale cualquier otro valor, el intervalo de confianza es el eje real entero.

Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

II.

La mejor manera que he encontrado para entender qué es un intervalo de confianza frecuentista es el de una urna enorme.

Las ANOVAs tienen interés meramente histórico

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí.

Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

¿Cómo se interpretan los resultados de estas regresiones

Esta entrada trata sobre las aparentes contradicciones que surgen cuando se comparan las regresiones $y \sim x$ y $x \sim y$. En particular, aqui se muestran

y

que vienen a decir:

  • El tal Rodgers rinde por encima de lo que se espera para su salario.
  • Para lo que rinde, gana demasiado.

Lo cual, a pesar de lo contradictorio, no es un fenómeno extrañísimo. Si uno hace

n <- 100
x <- rnorm(n)

a <- .3
b <- .5
y <- a * x + b + 0.1 * rnorm(100)

reg1 <- lm(y ~ x)
reg2 <- lm(x ~ y)

which.1 <- y > predict(reg1, data.frame(x = x))
which.2 <- x > predict(reg2, data.frame(y = y))
tmp <- cbind(which.1, which.2)
tmp <- which(tmp[,1] & tmp[,2])

ab <- coef(reg2)

plot(x, y)
abline(reg1, col = "blue")
abline(b = 1/ ab[2], a = - ab[1] / ab[2], col = "green")

points(x[tmp], y[tmp], col = "red", pch = 16)

puede obtener tantos gráficos de la forma

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos

A menudo he usado

plot(cars$speed, cars$dist)
abline(lm(dist ~ speed, data = cars), col = "red")

con el que se crea la requetemanida gráfica

útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo.

Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real). Uno puede casi siempre decir: unas veces me quedaré corto; otras largo y la ley de los grandes números me da ciertas garantías de que lo dado compensará lo servido en el largo plazo.

Los modelos bayesianos, ¿condenados a sobreajustar?

Por ese micromundo en el que muevo, circuló recientemente una polémica sobre si los métodos bayesianos sobreajustan necesaria e irremisiblemente. El desencadenante fue la publicación Bayes is guaranteed to overfit, for any model, any prior, and every data point en la que el autor sostiene que, efectivamente:

  • Tiene sentido hablar de sobreajuste en modelos bayesianos (a diferencia de lo que sostienen otros en tanto que como los modelos bayesianos no maximizan ninguna función objetivo, no ha lugar siquiera hablar de sobreajuste).
  • Y que, efectivamente, sobreajustan.

También reconoce, y eso hay que abonárselo, que otros métodos (MLE en particular) sobreajustan aún más.

Probabilidad y banca

Traduzco y adapto un texto de Matt Levine (fuente), cuya relevancia para lo que aquí se suele tratar es más que evidente:

[…] el capital social de un banco, la participación de los accionistas, es solo una pequeña porción que descansa sobre un enorme iceberg de pasivos. En un banco conservador y rentable, podría haber 100€ de activos, 90€ de pasivos y, por lo tanto, 10€ de capital social. Los pasivos son ciertos y conocibles —cosas como depósitos, que deben pagarse al 100%—. Los activos son variables, tienen un riesgo y su valoración es un poco una suposición: incluye activos con precios sujetos a las variaciones del mercado, derivados extraños difíciles de valorar y préstamos comerciales con probabilidades inciertas de ser devueltos. El banco aplica algunas convenciones contables y hace algunas suposiciones para llegar a un valor de 100€ para sus activos. Pero ese número está rodeado de incertidumbre.

Sobre el muy necesario "Rolling Journal of Sociology"

I.

El ordenador —de sobremesa— con el que trabajo habitualmente está más cerca de los diez que de los cinco años. Desde que lo compré ha avanzado la tecnología y soy consciente de que uno nuevo podría facilitarme cierto tipo de tareas. Pero para el 99% de ellas, con lo que tengo, vale. Cambiar me costaría tiempo y dinero. Me da pereza. Realmente, puedo hacer todo lo que necesito con este i5-6400 de 64GB de RAM DDR3-2133.

"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en,

que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo.

Obviamente, el segundo tiene que poder ilustrarse con datos concretos. Es entendible. Pero es contraproducente para el lector pensar que las técnicas propias del segundo modo han de aplicarse —o poder aplicarse— donde procede las del primero.

Sobre la elipse que "mejor" se ajusta a una "nube de puntos"

Es un problema conocido ese de tener una nube de puntos $(x_i, y_i)$ y preguntarse por la mejor recta (o polinomio de grado 2, 3, etc.) que los ajusta. Pero a veces uno busca la mejor elipse. Un caso del que me acuerdo (aunque allí se buscaba un círculo, más bien), es en Calculando la redondez de una piedra con R. Yo me encontré con el problema al construir una pequeña herramienta que me ayudase a mejorar el trazo de mis elipses a mano alzada; se trata de una página web (para visitar idealmente desde una tableta con lápiz electrónico) que:

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.