Wilcoxon

Notas (5): Crítica a las nubes de palabras, GAMLSS, paradojas estadísticas y más

Word clouds considered harmful. Un día aparecieron y a todos nos parecieron estupendos. Pero hay que madurar y admitirlo: tienen más desventajas que ventajas. Usan la frecuencia como proxy del significado y, además, no se sabe muy bien si la representan en términos de longitud o de área. Además de la influencia confundidora del número de letras de los términos. A better way to fill in those missing bubbles in the standardized test. Sugiere algo que me parece muy razonable: en un examen tipo test asignar el valor esperado de la respuesta al azar a las preguntas no respondidas. Me he vuelto fan de los GAMLSS. Están a la altura de los tiempos. Supongo que no tendrán éxito hasta que queden obsoletos por algo mejor que venga después. Sabemos que el AUC es lo mismo que el test de Wilcoxon. Pero, además, Frank Harrell explora la relación entre el test de Wilcoxon y la regresión logística ordinal en Equivalence of Wilcoxon Statistic and Proportional Odds Model. Resulta que el test de Wilcoxon emerge de manera natural al ajustar uno de esos modelos sin covariables (y ~ 1 en notación de fórmula de R). No sé si aquellos cuyo trabajo consiste en maquillar AUCs le pueden sacar punta a esto. Desde primeros principios, podría argumentarse que la tasa metabólica de los animales (calor emitido en reposo) debería guardar una relación del tipo $B \propto M^\alpha$, donde $M$ es la masa y $\alpha = 2/3$. Pero empíricamente, parece que $\alpha$ está más próxima a $3/4$. Aquí se reexamina la cuestión. La conclusión de X explains Z% of the variance in Y es que el concepto es, en general, mucho más confuso de lo que parece. Haz depender $Y$ de $X_1$ y $X_2$ que no son independientes y… A Andrew Gelman no le gustan los mercados de predicciones y, por tanto, no deja de encontrarles pegas.

AUC = Wilcoxon

Construyo unos datos, n <- 30 si <- data.frame(res = "si", score = rnorm(n, 1, 1)) no <- data.frame(res = "no", score = rnorm(n, 0, 1)) dat <- rbind(si, no) que simulan los scorings de un modelo hipótetico en el que comparo unos casos positivos y otros negativos. Comparo con el test de Wilcoxon el scoring según la etiqueta y normalizo (adecuadamente): test <- wilcox.test(score ~ res, data = dat)$statistic test / n^2 Por otro lado calculo el AUC: library(pROC) my_roc <- roc(dat$res, dat$score) auc(my_roc) ¡Lo mismo! Motivo: ambas expresiones dan la probabilidad de que el scoring de un sí elegido al azar sea superior al de un no elegido también al azar. Cosa que está superdocumentada en el ancho mundo. ...

No uses el test de Wilcoxon, nos dice Gelman

Andrew Gelman nos invita a no usar más el test de Wilcoxon. El test de Wilcoxon reemplaza las observaciones obtenidas por sus rangos y construye un estadístico basado en estos últimos. Eso implica descartar información pero puede ayudar a ganar robustez en situaciones en que los datos se desvíen de la normalidad. ¿Qué sugiere Gelman? Que si realmente estamos dispuestos a descartar información, en lugar de reemplazar las observaciones originales por sus rangos, usemos z-scores —los cuantiles de la normal estándar correspondientes a los cuantiles muestrales—, y usemos la teoría normal (en su doble acepción). ...