Doping, héroes patrios y... estadística
Este verano traté de recorrer en bici la ruta del Viaje a la Alcarria de Cela. No lo acabé porque se lesionó mi compañero a la altura de Pareja y tuvimos que regresar a Madrid en furgoneta. Pero recuerdo que, encarando algún repecho, con la lengua afuera, me comentaba qué duro es esto de la bici. Aproveché luego, en la fuente de algún pueblo, con las camisetas empapadas, para comentarle lo despiadado del circunstancial televidente estival, faria en mano, exigiendo a los ciclistas patrios demarres sobrehumanos en el Tourmalet.
No hay como coronar puerto y celebrarlo con pan, vino y macarrones. Pero las exigencias del deporte profesional moderno y los incentivos de toda clase que corrompen su esencia lo exponen a la lacra del doping. Mucho se puede hablar al respecto desde muchos puntos de vista, pero en estas páginas lo examinaré desde el estadístico. En particular, trataré de justificar que la frase me hicieron un control antidoping y dio negativo prácticamente no aporta información. Y, como consecuencia no me dopo porque me dio negativo es falaz (que no es lo mismo que falsa).
El estudio es análogo a otro que realicé hace un tiempo sobre polígrafos y terrorismo. Supongamos que tenemos 10000 deportistas de los que se dopan, por ejemplo, 50 con una hipotética hormona X.
Los biólogos de los laboratorios antidoping saben que para una persona que no se dopa (que se dopa) el nivel de hormona X en la orina tiene la distribución dada por la curva negra (roja) que aparece en
que ha sido construido usando
total <- 10000
dopings <- 50
limpios <- total - dopings
plot( dbeta( 0:100 / 100, 2,6), type = "l", main = "Distribución hormona X",
xlab = "umbral", ylab = "", yaxt = "n" )
lines( dbeta( 0:100 / 100, 5, 3 ), col = "red")
Es decir, para una persona que no se dopa, el nivel típico medido en laboratorio (teniendo en cuenta errores de medida, etc.) es de alrededor de 20, aunque pueden obtenerse en algunos casos medidas tan altas como 40 o 60. Para quienes se dopan, el nivel típico (curva de densidad roja) es mayor.
El comité encargado de velar por la limpieza de la competición tiene que elegir un criterio para decidir a quién se le sanciona y a quién no. Obviamente, a dicho comité le horroriza la posibilidad de equivocarse y arruinar la carrera de un deportista honesto. Además, la prensa, la afición, los patrocinadores, el ministro del ramo, la canciller, etc., se prestan para defender a cierraojos a su campeón patrio. ¡Y no digamos nada cuando en el comité hay franchutes alevosos, esos que nos tienen secular envidia!
Dados los condicionantes existentes, para minimizar la posibilidad de error (de tipo I), el comité elige un umbral de detección muy elevado. El número de deportistas limpios para cada percentil de detección es
freq.limpios <- limpios * (1 - pbeta( 0:100 / 100, 2, 6))
y si se quiere que el número esperado de falsos positivos sea menor que 1 (es decir, cometer menos de una injusticia al año), el percentil en el que hay que ubicar el umbral es
freq.dopings <- dopings * (1 - pbeta( 0:100 / 100, 5, 3))
min( which( freq.limpios < 1))
Pero en ese umbral, sólo se detectan
freq.dopings[ min( which( freq.limpios < 1 ) ) ]
# 3.68
casos reales de doping; es decir, de los cincuenta casos verdaderos de doping
dopings - freq.dopings[ min( which( freq.limpios < 1 ) ) ]
# 46.31
salen limpios. De ahí que mi_ análisis ha salido negativo_ sea un juicio que apenas aporta información: la probabilidad a priori de estar limpio es
limpios / total
y a posteriori es, prácticamente, la misma.
Eso sí, después de un positivo es
( freq.dopings / freq.limpios )[ min( which( freq.limpios < 1 ) ) ]
# 5.33
veces más probable haber consumido la hormona X que no haberlo hecho. A pesar de lo cual, sistemáticamente, todos los deportistas que dan positivo esgrimen mil argucias legales (¡mira que echarle la culpa al solomillo, con lo que me gusta!) para probar que pertenecen a ese potencial grupúsculo de víctimas del despiadado método científico.
¡Salud y bicicleta!