Paradojas

¿Cómo se interpretan los resultados de estas regresiones

Esta entrada trata sobre las aparentes contradicciones que surgen cuando se comparan las regresiones $y \sim x$ y $x \sim y$. En particular, aqui se muestran

y

que vienen a decir:

  • El tal Rodgers rinde por encima de lo que se espera para su salario.
  • Para lo que rinde, gana demasiado.

Lo cual, a pesar de lo contradictorio, no es un fenómeno extrañísimo. Si uno hace

n <- 100
x <- rnorm(n)

a <- .3
b <- .5
y <- a * x + b + 0.1 * rnorm(100)

reg1 <- lm(y ~ x)
reg2 <- lm(x ~ y)

which.1 <- y > predict(reg1, data.frame(x = x))
which.2 <- x > predict(reg2, data.frame(y = y))
tmp <- cbind(which.1, which.2)
tmp <- which(tmp[,1] & tmp[,2])

ab <- coef(reg2)

plot(x, y)
abline(reg1, col = "blue")
abline(b = 1/ ab[2], a = - ab[1] / ab[2], col = "green")

points(x[tmp], y[tmp], col = "red", pch = 16)

puede obtener tantos gráficos de la forma

La paradoja de Lord, de nuevo

Escribí sobre la paradoja de Lord en 2013 y luego otra vez, tangencialmente, en 2020. Hace poco releí el artículo de Pearl sobre el tema y comoquiera que su visión sobre el asunto es muy distinta de la mía, voy a tratar de desarrollarla.

Aunque supongo que es generalizable, la llamada paradoja de Lord se formuló inicialmente al estudiar y comparar datos antes/después. En su descripción original de mediados de los 60, había niños y niñas a los que se había pesado en junio y en septiembre. El problema (y la paradoja) aparecían al tratar de modelar esa variación de peso según el sexo.

De A/B a DiD

Un test A/B consiste en (o aspira a) estimar (y tal vez promediar) las diferencias

predict(modelo_t, x) - predict(modelo_c, x)

donde modelo_t y modelo_c son modelos construidos en grupos tratados y no tratados de cierta manera.

Entra el tiempo.

Ahora ya no se trata de medir esas diferencias sino las diferencias entre los incrementos antes y después. Que se hace construyendo cuatro modelos para con ellos obtener

(predict(modelo_td, x) - predict(modelo_ta, x)) -

Un resultado probabilístico contraintuitivo (y II)

Va sobre lo de ayer. Hay una demostración de ese resultado contraintutivo aquí. Hay una referencia aquí. Existen discusiones sobre si este resultado se debe a Feller; si no lo es, bien pudiera haberlo sido; la verdad, es muy como de él.

Pero una cosa es la demostración y otra muy distinta, descontraintuitivizar el resultado. Para ello, escuchemos la siguiente conversación entre dos sujetos:

A: No has visto el cierre de la bolsa hoy, ¿verdad?

Un resultado probabilístico contraintuitivo (parte I)

A elige dos números con una distribución de probabilidad cualquiera,

generador <- function() rlnorm(2, 3, 4)

y los guarda ocultos. A B le deja ver uno al azar (sin pérdida de generalidad, el primero). Y B tiene que decidir si el que ve es el más alto de los dos (en cuyo caso, gana un premio, etc.). Veamos a B actuar de manera naive:

estrategia.naive <- function(observed) {
  sample(1:2, 1)
}

Dejemos a A y B jugar repetidamente a este juego:

La paradoja de Berkson

Queremos calentar unas empanadas en el horno y, ¡oh desgracia!, no funciona. Pueden pasar dos cosas (independientes entre sí):

  • El horno está estropeado ($latex A$)
  • El horno está desenchufado ($latex B$)

Hemos observado el evento $latex A \cup B$ y nos preocupa mucho $latex P(A | A \cup B)$, es decir, que tengamos que llamar al técnico y comernos frías las empanadas a la vista de que el horno no responde.

Tres monedas y un argumento falaz

Tiras tres monedas. ¿Cuál es la probabilidad de obtener tres valores (cara o cruz) iguales? Es, lo sabemos todos, 0.25: de las ocho opciones posibles, solo dos cumplen.

Ahora, el argumento falaz —dizque de Francis Galton— que prueba que dicha probabilidad es de 0.5. Es así: de las tres monedas, dos tienen que coincidir necesariamente en valor; entonces la tercera, con probabilidad 0.5, coincidirá con los anteriores y con la misma discrepará.

Una paradoja que no me parece paradójica, la de Bertrand, y una pregunta

La paradoja de Bertrand se formula así: tómense una cuerda al azar en una circunferencia; ¿cuál es la probabilidad de que sea más larga que el lado del triángulo equilátero inscrito?

bertrand

Bertrand resolvió el problema de tres maneras distintas obteniendo tres resultados distintos: 1/2, 1/3 y 1/4. ¿Es eso una paradoja?

La paradoja es consecuencia de que no existe una definición única de cuerda al azar, algunas de las cuales acaban dando más peso a cuerdas más largas y otras menos. En resumen, hay varias maneras razonables de muestrear cuerdas de circunferencias y los resultados pueden ser distintos.

La paradoja de Lord

Hace unos meses una clienta me propuso un problema relativamente (¿aparentemente?) sencillo. Era el siguiente:

  • A cierto número de pacientes se les hizo una medida (de qué, es irrelevante) antes y después de un tratamiento.
  • A unos se les aplicó el tratamiento tradicional (grupo de control).
  • A otros, uno novedoso (grupo de tratamiento).

El objetivo era el obvio: ¿es mejor el nuevo tratamiento? Parece sencillo, ¿verdad?

Hay dos mecanismos obvios para tratar de verificar la hipótesis. El primero es un t-test sobre

La paradoja del cumpleaños y el niño que colecciona cromos de futbolistas

El otro día vi el programa Descifrar las probabilidades en la vida de Punset en el que se repasan varios problemas más o menos prácticos en los que el cálculo de las probabilidades juega cierto papel.

Entre ellos menciona el de la llamada paradoja del cumpleaños: resulta que si 23 personas se juntan en una fiesta, existe aproximadamente un 50% de probabilidades de que dos de ellos tengan el mismo cumpleaños. Por algún tipo de defecto de diseño cerebral, al ser humano se le antoja un resultado paradójico. Leí también a Esteban Moro en Twitter decir que él explica mejor ese fenómeno en charlas sobre probabilidad que da en institutos, creo recordar.

Ubi ratio, ibi paradoxa (Simpsorum)

Efectivamente, ahí donde hay ratios, aparece con frecuencia la llamada paradoja de Simpson (a propósito, en enlace anterior a la Wikipedia es un despropósito: a ver si alguno de mis lectores con tiempo deja la página a la altura de lo que merece una lengua de cultura).

Una ratio muy traída y llevada últimamente y con la que nos gusta autoflagelarnos a los españoles es el de la productividad, que es el cociente entre la producción nacional y el número de trabajadores. Los economistas lo usan para, entre otras cosas, autojustificar su existencia.