Estadística

53 (o, ¿cuál es la prior?)

En la documentación técnica del estudio ENE-COVID19 (recuérdese: INE + ISCIII) se describe un estudio de fiabilidad previo del test rápido (sección A1.2) que se anuncia así: Según el fabricante, el test tiene una sensibilidad del 88% y 97% para determinar IgM e IgG respectivamente, y una especificidad de 100% frente a ambos isótopos. Para comprobar el comportamiento del test elegido, se han llevado a cabo dos estudios de fiabilidad. Veamos en qué consisten. ...

Aleatoriedad hirsuta, aleatoriedad pochola

Contemplando y comparando y se me han venido a la mente los adjetivos hirsuto y pocholo para calificar las respectivas formas de aleatoriedad que representan. La primera es el resultado del habitual n <- 200 x <- runif(n) y <- runif(n) plot(x, y, pch = 16) mientras que la segunda exige el más sofisticado library(randtoolbox) s <- sobol(n, 2, scrambling = 3) x <- s[,1] y <- s[,2] plot(x, y, pch = 16) Se ve que Sobol quería rellenar más armoniosamente el espacio. Me temo que, al hablar de aleatoriedad, muchos de nosotros también (p.e., esto).

No hagáis esto o se darán cuenta de que sois muy cutres

Lo que no hay que hacer nunca si no quieres que se enteren de que eres inmensamente cutre es escribir código en las líneas del siguiente seudocódigo: m = model(y ~ a + b + c) if (modelo.p_value(a) > .05) m = model(y ~ b + c) ¡No, no, no, no, NO!

La gramática del análisis explicativo interactivo de modelos

Así vendría a traducirse el título de este artículo, que trata de taxonomizar y sistematizar una serie de técnicas muy recientes para explicar modelos de caja negra. Tal vez no acabe siendo la manera pero, sin duda, acabará habiendo una.

En defensa de Simón: variaciones diarias de la mortalidad

Qué cafres tenéis que ser para que tenga que salir yo —precisamente yo, que tantas cosas no buenas tengo para decir del buen hombre— en defensa de Simón. Tiene delito que de todo lo que se le pueda echar en cara os hayáis fijado en una intervención en la que os trataba de desasnar para que no le anduviéseis buscando tres pies a la varianza. Es un tema que vengo tratando de antiguo en estas páginas y de ello dan fe: ...

Consensus clustering

No hay nada tan corrosivo para la fe en el clústering que probar una y otra vez k-medias (por ejemplo) sobre los mismos datos y ver cómo los resultados cambian drásticamente de ejecución en ejecución. Pero eso viene a ser, esencialmente, lo que hay detrás del consensus clústering (CC), una técnica que puede ser usada, entre otros fines, para determinar el número óptimo de grupos. La idea fundamental de la cosa es que observaciones que merezcan ser agrupadas juntas lo serán muy frecuentemente aunque cambien ligeramente las condiciones iniciales (por ejemplo, se tome una submuestra de los datos o cambien las condiciones iniciales de k-medias, por ejemplo). Si uno altera esas condiciones iniciales repetidas veces puede contar la proporción de las veces que las observaciones i y j fueron emparejadas juntas y crear la correspondiente matriz (simétrica, para más señas) $C(i,j)$. ...

lme4 + simulate

Esta entrada es casi una referencia para mí. Cada vez tiro más de lme4 en mis modelos y en uno en concreto que tengo entre manos toca simular escenarios. Para lo cual, simulate.merMod. Véamoslo en funcionamiento. Primero, datos (ANOVA-style) y el modelo que piden a gritos: library(plyr) library(lme4) a <- c(0,0,0, -1, -1, 1, 1, -2, 2) factors <- letters[1:length(a)] datos <- ldply(1:100, function(i){ data.frame(x = factors, y = a + rnorm(length(a))) }) modelo <- lmer(y ~ (1 | x), data = datos) El resumen del modelo está niquelado: summary(modelo) # Linear mixed model fit by REML ['lmerMod'] # Formula: y ~ (1 | x) # Data: datos # # REML criterion at convergence: 2560.3 # # Scaled residuals: # Min 1Q Median 3Q Max # -3.6798 -0.6442 -0.0288 0.6446 3.3582 # # Random effects: # Groups Name Variance Std.Dev. # x (Intercept) 1.5197 1.2328 # Residual 0.9582 0.9789 # Number of obs: 900, groups: x, 9 # # Fixed effects: # Estimate Std. Error t value # (Intercept) -0.009334 0.412212 -0.023 En particular, ...

Intervalos de confianza, intervalos de predicción

Contexto: modelo <- lm(dist ~ speed, data = cars) Intervalos de confianza: head(predict(modelo, interval = "confidence")) # fit lwr upr #1 -1.849460 -12.329543 8.630624 #2 -1.849460 -12.329543 8.630624 #3 9.947766 1.678977 18.216556 #4 9.947766 1.678977 18.216556 #5 13.880175 6.307527 21.452823 #6 17.812584 10.905120 24.720047 Intervalos de predicción: head(predict(modelo, interval = "prediction")) # fit lwr upr #1 -1.849460 -34.49984 30.80092 #2 -1.849460 -34.49984 30.80092 #3 9.947766 -22.06142 41.95696 #4 9.947766 -22.06142 41.95696 #5 13.880175 -17.95629 45.71664 #6 17.812584 -13.87225 49.49741 Creo que la diferencia (y el significado) es claro. Para todos los demás, esto.

Sobre los peligros del "Tukey biweight"

Sigo con ajustes robustos. Y cosas que como matemático, me ponen muy nervioso. Una de las maneras de hacer ajustes robustos es la de sustituir la función cuadrática por la biweight. Es decir, utilizar la función que aparece la derecha en en lugar de la de la izquierda. O, dicho de otra manera, en lugar de tratar de minimizar $$ \sum_i \rho(y_i - f_\alpha(x_i))$$ usando $\rho(x) = x^2$, que es la función que se representa a la izquierda y a la que estamos acostumbrados, usar la de la derecha. Que es la función biweight de Tukey. ...

La probabilidad de que el parámetro esté en el intervalo de confianza es .95

Si dices lo anterior, corres el riesgo de que un estadístico gruñón frunza mucho el ceño. Hace muchos, muchos años, las gentes ávidas de saber más acudieron al tabernáculo donde se congregaban los sapientísimos estadísticos frecuentistas implorándoles una herramienta con que estimar el error de sus estimaciones puntuales. Estos cavilaron luengamente y décadas después entregaron a los representantes de los hombres, reunidos en el ágora, unas tablas de piedra que tenían grabadas a cincel la teoría de los intervalos de confianza. Pero, les advirtieron, los intervalos de confianza no son lo que vosotros queréis sino otra cosa y a quien ose interpretarlos torcidamente le pasará lo que a aquella señora que comió la manzana inadecuada: será expulsado del paraíso de la teoría como Dios manda. ...