Notas (5): Crítica a las nubes de palabras, GAMLSS, paradojas estadísticas y más
Word clouds considered harmful. Un día aparecieron y a todos nos parecieron estupendos. Pero hay que madurar y admitirlo: tienen más desventajas que ventajas. Usan la frecuencia como proxy del significado y, además, no se sabe muy bien si la representan en términos de longitud o de área. Además de la influencia confundidora del número de letras de los términos. A better way to fill in those missing bubbles in the standardized test. Sugiere algo que me parece muy razonable: en un examen tipo test asignar el valor esperado de la respuesta al azar a las preguntas no respondidas. Me he vuelto fan de los GAMLSS. Están a la altura de los tiempos. Supongo que no tendrán éxito hasta que queden obsoletos por algo mejor que venga después. Sabemos que el AUC es lo mismo que el test de Wilcoxon. Pero, además, Frank Harrell explora la relación entre el test de Wilcoxon y la regresión logística ordinal en Equivalence of Wilcoxon Statistic and Proportional Odds Model. Resulta que el test de Wilcoxon emerge de manera natural al ajustar uno de esos modelos sin covariables (y ~ 1 en notación de fórmula de R). No sé si aquellos cuyo trabajo consiste en maquillar AUCs le pueden sacar punta a esto. Desde primeros principios, podría argumentarse que la tasa metabólica de los animales (calor emitido en reposo) debería guardar una relación del tipo $B \propto M^\alpha$, donde $M$ es la masa y $\alpha = 2/3$. Pero empíricamente, parece que $\alpha$ está más próxima a $3/4$. Aquí se reexamina la cuestión. La conclusión de X explains Z% of the variance in Y es que el concepto es, en general, mucho más confuso de lo que parece. Haz depender $Y$ de $X_1$ y $X_2$ que no son independientes y… A Andrew Gelman no le gustan los mercados de predicciones y, por tanto, no deja de encontrarles pegas.