Estadística

Otra sobre polígrafos, terrorismo y periodistas anuméricos

Dice el diario El País que científicos británicos desarrollan un sistema que permite saber si alguien no está diciendo la verdad analizando su rostro.

El aparato, según el artículo

[…] podría ser utilizado para cuestiones de seguridad, como, por ejemplo, en los aeropuertos para identificar a potenciales criminales o terroristas.

Añade después que

[…] el sistema será capaz de coger al 90 % de los que mienten, porcentaje similar al obtenido por el polígrafo

La ley de Benford

El otro día me preguntó una compañera el motivo por el que un proceso (de transformación de datos) se ejecutaba tan lentamente. De oficio, siempre hago lo mismo —además, lo saben: ¿para qué seguirán preguntando?—: ejecutar el proceso sólo sobre un porcentaje de los datos.

Con los que el id acababa en 123, era inmediato; con 12, también; con 1, se eternizaba. Pero con 2, 3 y 4 volvía a ser muy rápido. ¡Había muchísimos registros con id acabado en 1!

La estadística del número tres

Una consulta que he recibido hoy me ha hecho acordar que tenía pendiente una entrada sobre la estadística del número tres, es decir, ¿qué hacer cuando tenemos sólo tres casos?

Hace tiempo publiqué en estas páginas un vídeo sobre este asunto. Lo que no sabía entonces es que existen (o existieron) estadísticos que estudiaron concienzudamente el problema. He aquí unas cuantas referencias:

  • Youden, W. J., The Best Two out of Three?", J. Chem. Educ., diciembre de 1949, 673-674
  • Lieblein, J., Properties of Certain Statistics Involving the Closest Pair in a Sample of Three Observations, Journal of Research of the National Bureau of Standards, marzo de 1952
  • Youden, W.J., The fallacy of the best two out of three, NBS Technical News Bulletin 33, 77, julio de 1949
  • Youden, W. J., Sets of Three Measurements, Scienfic Monthly, 77, septiembre de 1953
  • … y otras que aparecen en las bibliografías de los anteriores o que los citan.

En realidad, estos artículos tienen que ver, mucho más que con el caso que recoge el vídeo, con el de la medición de fenómenos en laboratorio y su fiabilidad. Se ve que es (o fue) habitual tomar tres medidas de un mismo experimento y dar por buena después la media de las dos más próximas. Los artículos anteriores discuten la conveniencia o no de esa práctica.

Visualización de la actualización bayesiana (y unas cuantas funciones de R)

Me ha llegado noticia de una entrada en un blog, Visualizing Bayesian Updating, en el que se muestra visualmente cómo se actualiza la distribución a posteriori conforme aumenta el número de ensayos en un problema bayesiano simple. Explica también los fundamentos estadísticos del asunto.

Yo me limitaré a ofrecer una nueva versión del código —que no funcionaba copiando y pegando sin más— en el que he introducido ciertas modificaciones. Es el siguiente:

Un paseo por Google Fusion Tables

El siguiente vídeo contiene una entrevista con Alon Halevy, que dirige el Data Group en Google Research. Aunque confunda Suecia y Finlandia, merece la pena la presentación que hace de Google Fusion Tables, una plataforma para compartir, combinar, distribuir y representar gráficamente conjuntos de datos.

Diez pasos para construir indicadores compuestos

“[…] es difícil imaginar que el debate sobre el uso de indicadores agregados llegue algún día zanjarse  […] los estadísticos desconfían de ellos puesto que gran parte del trabajo de recolección y análisis de datos se “desvirtúa” o “esconde” detrás de un único número de dudoso valor. Otros, por su parte, encuentran irresistiblemente tentadora la posibilidad de resumir procesos complejos y lábiles (por ejemplo, sostenibilidad, etc.) en una cifra con la que comparar el desempeño de los distintos países.”

Clústering (IV): una digresión real como la vida misma

Entré a trabajar en una consultora hace un tiempo ?no diré si mucho o poco? y uno de mis primeros encargos fue el de supervisar el desarrollo e implementación de unos modelos que habían creado unos compañeros. Les eché un vistazo y me sorprendió que sin mayor miramiento habían eliminado aquellas observaciones cuya variable objetivo tomaba el 4% de los valores más altos y el 4% de los más pequeños.

Ubi ratio, ibi paradoxa (Simpsorum)

Efectivamente, ahí donde hay ratios, aparece con frecuencia la llamada paradoja de Simpson (a propósito, en enlace anterior a la Wikipedia es un despropósito: a ver si alguno de mis lectores con tiempo deja la página a la altura de lo que merece una lengua de cultura).

Una ratio muy traída y llevada últimamente y con la que nos gusta autoflagelarnos a los españoles es el de la productividad, que es el cociente entre la producción nacional y el número de trabajadores. Los economistas lo usan para, entre otras cosas, autojustificar su existencia.

Piensa en en términos de inferencia

Recomiendo a mis lectores este estupendo vídeo. Es una conferencia de casi una hora que nos invita a pensar en los datos en términos de inferencia.

Aunque en un contexto un tanto exótico (la remodelación del currículo estadístico en los niveles educativos intermedios de Nueva Zelanda), plantea de una manera muy accesible el principal problema de la inferencia: dados unos datos que son una muestra de una población entera, ¿qué legítimo afirmar acerca de la segunda a partir de los primeros?

Si Feller levantase la cabeza...

Tengo un amigo físico que trabaja supervisando el funcionamiento una máquina de radioterapia. Se dedica, esencialmente, a achicharrar células cancerígenas con chorros de radioactividad. Me contaba recientemente cómo hay pacientes que responden positivamente y cómo con otros con un perfil similar, aun sometidos a dosis de radioactividad muy superiores, no hay forma humana de hacer que el tumor remita. Éste y muchos otros casos análogos hacen pensar a la comunidad médica que no hay enfermedades sino enfermos y que los remedios que bien valen para uno, pueden no valer para otro.

Comparación de variables aleatorias de Poisson

El otro día apareció publicado en Significance una comparación entre el número de tarjetas recibidas por las selecciones inglesas de fúlbol masculina y femenina.

Los hombres habían recibido 196 tarjetas en los 48 partidos disputados en el periodo de referencia y las mujeres, 40 en 24 partidos. El promedio de tarjetas, por lo tanto, de 4.1 y 1.7 respectivamente. Y la pregunta es: ¿hay motivos razonables para pensar que las mujeres juegan menos sucio?

Una feliz conjunción estadístico-algebraica (y II)

Abandonamos el otro día nuestra discusión sobre la feliz conjunción estadístico-algebraica que subyace a esa técnica conocida como análisis de correspondencias en el punto en que habíamos descompuesto la matriz $latex B$ de la forma $latex B = PDQ^\prime$, donde $latex P$ y $latex Q$ son matrices cuyas columnas son vectores ortonormales $latex p_i$ y $latex q_j$ y $latex D$ es una matriz diagonal (aunque no necesariamente cuadrada) cuyos elementos de la diagonal (en orden decreciente) son $latex \lambda_k$.

Una feliz conjunción estadístico-algebraica

Tomemos una tabla de contingencia, p.e.,

library(MASS)
a <- as.matrix(caith)

#        fair red medium dark black
# blue    326  38    241  110     3
# light   688 116    584  188     4
# medium  343  84    909  412    26
# dark     98  48    403  681    85

que se refiere a los habitantes de una población de Escocia clasificados según el color de los ojos y el pelo. ¿Habrá una relación entre ambas variables?