Estadística

La falacia de la conjunción desaforada

La falacia, para aquellos que no la conozcan, está descrita aquí. El ejemplo más citado al respecto es el de Linda: Linda tiene 31 años de edad, soltera, inteligente y muy brillante. Se especializó en filosofía. Como estudiante, estaba profundamente preocupada por los problemas de discriminación y justicia social, participando también en manifestaciones anti-nucleares. ¿Que es más probable? Linda es una cajera de banco. Linda es una cajera de banco y es activista de movimientos feministas. ...

Sobre la "inferencia basada en magnitudes"

Este artículo (sobre si los estadísticos se autoaplican el mismo rigor metodológico a la hora de seleccionar herramientas de análisis que luego exigen a otros) me llevó a este otro artículo donde se menciona una técnica, la inferencia basada en magnitudes, MBI en lo que sigue, por sus siglas en inglés, de la que trata lo que sigue. Buscaban las autoras del segundo artículo un ejemplo de una técnica de esas que se publican en revistas de metodología estadística que acabara no teniéndose de pie. La encontraron en la MBI, que es una técnica: ...

Sobre el teorema de Aumann

[Del que ya hablé hace un tiempo desde una perspectiva diferente.] Prioris A y B (dos personas) tienen la misma priori Beta(1, 1) —que es uniforme en [0, 1]— sobre la probabilidad de cara de una moneda. Datos Entonces A presencia una tirada de la moneda (a la que no asiste B) y es cara. Su priori se actualiza a una Beta(1, 2). Luego B presencia una tirada de la moneda (a la que no asiste A) y es cruz. Su priori se actualiza a una Beta(2, 1). ...

¿Dónde son más frecuentes las muestras de una distribución en dimensiones altas?

Esta es una cosa bastante contraintituiva. Uno diría que en la moda, pero no es exactamente así. Veamos qué pasa con la distribución normal conforme aumenta la dimensión. En una dimensión son más frecuentes los valores próximos al centro: hist(abs(rnorm(10000)), breaks = 100, main = "distribución de la distancia al centro") Pero en dimensiones más altas (p.e., 10), la cosa cambia: library(mvtnorm) muestra <- rmvnorm(10000, rep(0, 10), diag(rep(1, 10))) distancias <- apply(muestra, 1, function(x) sqrt(sum(x^2))) hist(distancias, breaks = 100, main = "distribución de la distancia al centro") ...

Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos

Todo esto arranca con el tuit: En conjunto, como digo, los países con Estados grandes tienden a ser poco progresivos pic.twitter.com/oeI6hkUZwd — Juan Ramón Rallo (@juanrallo) February 1, 2021 Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R². ...

Separación perfecta en el modelo de Poisson

El asunto de la separación perfecta en el modelo logístico es sobradamente conocido. Solo quiero añadir al respecto dos cosas que no se suelen decir: Es un dolor que solo duele a los frecuentistas que no usan regularización (y van quedando cada vez menos de esos). Que no es malo sino bueno: ¿qué cosa mejor que tus datos puedan responder categóricamente las preguntas que les planteas (supuesto, claro, está, un N suficientemente grande). Lo que es menos conocido es que el problema de la separación perfecta también puede afectar a la regresión de Poisson. ...

Simpson sobre la desigualdad

Simpson, un viejo amigo de estas páginas, nos enseña, por ejemplo, cómo es posible que los salarios desciendan a lo largo de todas sus subcategorías y que, a la vez, crezcan en promedio en el tiempo. Basta para ello que se reduzca el peso la proporción de los trabajos peor pagados en la economía. Los institutos estadísticos, a la hora de estimar el índice de precios, son conscientes del problema y elaboran cestas de la compra más o menos ideales (a lo Quetelet) y calculan su precio a lo largo del tiempo. ...

¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta. La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $Y$ depende de $X_i$ a través de una relación del tipo $$ Y | X_i \sim N(f(X_i, \sigma)$$ ...

Sobre la relación entre la teoría de la relatividad y la regresión logística

Según la teoría de la relatividad, las velocidades (lineales) se suman así: v1 <- 100000 v2 <- 100000 velocidad_luz <- 300000 suma_relativista <- function(x,y){ (x + y) / (1 + x * y / velocidad_luz^2) } suma_relativista(v1, v2) # 180000 Lo que es todavía menos conocido es que esa operación es equivalente a la suma ordinaria de velocidades a través de una transformación de ida y vuelta vía la arcotangente hiperbólica (véase esto). En concreto: f1 <- function(x) { atanh(x / velocidad_luz) } f2 <- function(x) { velocidad_luz * tanh(x) } f2(f1(v1) + f1(v2)) # 180000 Ahora imaginemos un universo donde la velocidad máxima no es la de la luz, sino que solo están permitidas las velocidades entre 0 y 1: ...

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final: En el gráfico anterior se aprecian unos datos, generados mediante n <- 100 x <- 1:n y_base <- cos(2 * pi * x / 100) y <- y_base + rnorm(n, 0, .4) datos <- data.frame(x = x, y_base = y_base, y = y, cos1 = cos(2 * pi * x / 100), cos2 = cos(4 * pi * x / 100)) a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales. Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir, modelo <- lm(y ~ cos1 + cos2, data = out) Los p-valores correspondientes al segundo coeficiente (que no aporta nada al modelo generativo) son ...