Spiegelhalter

Umbralistas vs antiumbralistas

Dentro de ese submundo de la estadística (¿o de la epidemiología?) que estudia qué es seguro y qué no y los riesgos para la salud de diversos productos o prácticas, existen dos familias de difícil reconciliación: los umbralistas y los antiumbralistas.

Sus posiciones pueden ilustrarse gráficamente así:

Las posiciones típicas de los umbralistas quedan resumidas aquí.

Los antiumbralistas suelen ser más mediáticos (a la prensa le encantan afirmaciones del tipo: ¡el alcohol causa X desde la primera gota!) y tienen más hinchada en las clases populares.

Incertidumbre en ránkings (o cómo la varianza es la mayor enemiga de la meritocracia)

Tengo por ahí leído y encolado el artículo League Tables and Their Limitations: Statistical Issues in Comparisons of Institutional Performance del perínclito Spiegelhalter que toma una serie de ránkings (de colegios, de hospitales) y trata de medir cuánto tienen de sustancia y cuánto de ruido.

Hace cosas muy similares a las que escribí aquí. Mi entrada, además, cuenta con la ventaja (que lo será solo para algunos) de usar la sintaxis y código de lme4 en lugar de la nomenclatura que más odio para describir los modelos mixtos utilizados.

AUC = Wilcoxon

Construyo unos datos,

n <- 30
si <- data.frame(res = "si",
    score = rnorm(n, 1, 1))
no <- data.frame(res = "no",
    score = rnorm(n, 0, 1))
dat <- rbind(si, no)

que simulan los scorings de un modelo hipótetico en el que comparo unos casos positivos y otros negativos.

Comparo con el test de Wilcoxon el scoring según la etiqueta y normalizo (adecuadamente):

test <- wilcox.test(score ~ res, data = dat)$statistic
test / n^2

Por otro lado calculo el AUC:

library(pROC)
my_roc <- roc(dat$res, dat$score)
auc(my_roc)

¡Lo mismo!

Motivo: ambas expresiones dan la probabilidad de que el scoring de un sí elegido al azar sea superior al de un no elegido también al azar. Cosa que está superdocumentada en el ancho mundo.

La falacia del fiscal (pero con frecuencias naturales)

No sé si alguien conoce la historia de Sally Clark. Fue condenada por el asesinato de sus dos hijos. Ambos padecieron, según ella, el síndrome de la muerte súbita del lactante. La probabilidad, sin embargo, de que sus dos hijos lo padecieran (supuesto que son eventos independientes, i.e., que no hay, por ejemplo, factores genéticos comunes) era muy baja: una de 73 millones. Por eso la enchironaron.

Pero, ¿qué es 1 / 73e6? Eso es $latex P(D|I)$, es decir, la probabilidad del suceso (los datos) condicionada a la inocencia de Sally. Sin embargo, la probabilidad que tiene que tener encuenta un juez no es esa sino $latex P(I|D)$, es decir, la probabilidad de ser inocente a la vista de los datos.

De ratios, apuestas y riesgos

Nunca he entendido eso de los odds. Me refiero a eso que mencionan las películas: ocho contra uno a favor de tal, cinco contra tres a favor de cual. Y no creo que sea el único al que le son ajenos. De hecho, la página de la Wikipedia en español correspondiente a la inglesa para odds se refiere a ellas como cuotas, término que jamás hasta hoy había visto así usado. Tampoco lo han visto, se concoce, los lexicógrafos de la RAE.

La media y el riesgo (de nuevo)

Hoy me han preguntado una cosa algo rara. Era alguien del departamento de riesgos de una conocida entidad financiera que quería saber cómo calcular (con SAS) la media del LTV. El LTV, aunque tiene otras acepciones, significa en este contexto loan to value, el cociente entre el valor de un préstamo y valor del colateral que lo respalda.

(Este LTV tiene que ver con el famoso le financiamos el 80% del valor de la inversión de otras épocas. Un préstamo con un LTV bajo es seguro: el banco puede con más o menos facilidad recuperar el 100% del capital prestado; un préstamo con un LTV alto es mucho más problemático.)

Visualización de la incertidumbre sobre el futuro

Recomiendo a mis lectores el artículo Visualizing Uncertainty About the Future de D. Spiegelhalter, M. Pearson e I. Short. Trata sobre qué tipo de representaciones gráficas son más adecuadas para transmitir información acerca de la probabilidad de fenómenos futuros a distintos tipos de audiencias, incluidas las más anuméricas.

Abarca desde los incipientes trabajos de Nightingale y Neurath hasta Gapminder y los más modernos desarrollos de la infografía. Aplaude, por ejemplo, la iniciativa del Banco de Inglaterra de publicar información sobre la posible evolución de indicadores económicos futuros de la forma