Estadística

Clústering (IV): una digresión real como la vida misma

Entré a trabajar en una consultora hace un tiempo ?no diré si mucho o poco? y uno de mis primeros encargos fue el de supervisar el desarrollo e implementación de unos modelos que habían creado unos compañeros. Les eché un vistazo y me sorprendió que sin mayor miramiento habían eliminado aquellas observaciones cuya variable objetivo tomaba el 4% de los valores más altos y el 4% de los más pequeños.

Ubi ratio, ibi paradoxa (Simpsorum)

Efectivamente, ahí donde hay ratios, aparece con frecuencia la llamada paradoja de Simpson (a propósito, en enlace anterior a la Wikipedia es un despropósito: a ver si alguno de mis lectores con tiempo deja la página a la altura de lo que merece una lengua de cultura).

Una ratio muy traída y llevada últimamente y con la que nos gusta autoflagelarnos a los españoles es el de la productividad, que es el cociente entre la producción nacional y el número de trabajadores. Los economistas lo usan para, entre otras cosas, autojustificar su existencia.

Piensa en en términos de inferencia

Recomiendo a mis lectores este estupendo vídeo. Es una conferencia de casi una hora que nos invita a pensar en los datos en términos de inferencia.

Aunque en un contexto un tanto exótico (la remodelación del currículo estadístico en los niveles educativos intermedios de Nueva Zelanda), plantea de una manera muy accesible el principal problema de la inferencia: dados unos datos que son una muestra de una población entera, ¿qué legítimo afirmar acerca de la segunda a partir de los primeros?

Si Feller levantase la cabeza...

Tengo un amigo físico que trabaja supervisando el funcionamiento una máquina de radioterapia. Se dedica, esencialmente, a achicharrar células cancerígenas con chorros de radioactividad. Me contaba recientemente cómo hay pacientes que responden positivamente y cómo con otros con un perfil similar, aun sometidos a dosis de radioactividad muy superiores, no hay forma humana de hacer que el tumor remita. Éste y muchos otros casos análogos hacen pensar a la comunidad médica que no hay enfermedades sino enfermos y que los remedios que bien valen para uno, pueden no valer para otro.

Comparación de variables aleatorias de Poisson

El otro día apareció publicado en Significance una comparación entre el número de tarjetas recibidas por las selecciones inglesas de fúlbol masculina y femenina.

Los hombres habían recibido 196 tarjetas en los 48 partidos disputados en el periodo de referencia y las mujeres, 40 en 24 partidos. El promedio de tarjetas, por lo tanto, de 4.1 y 1.7 respectivamente. Y la pregunta es: ¿hay motivos razonables para pensar que las mujeres juegan menos sucio?

Una feliz conjunción estadístico-algebraica (y II)

Abandonamos el otro día nuestra discusión sobre la feliz conjunción estadístico-algebraica que subyace a esa técnica conocida como análisis de correspondencias en el punto en que habíamos descompuesto la matriz $latex B$ de la forma $latex B = PDQ^\prime$, donde $latex P$ y $latex Q$ son matrices cuyas columnas son vectores ortonormales $latex p_i$ y $latex q_j$ y $latex D$ es una matriz diagonal (aunque no necesariamente cuadrada) cuyos elementos de la diagonal (en orden decreciente) son $latex \lambda_k$.

Una feliz conjunción estadístico-algebraica

Tomemos una tabla de contingencia, p.e.,

library(MASS)
a <- as.matrix(caith)

#        fair red medium dark black
# blue    326  38    241  110     3
# light   688 116    584  188     4
# medium  343  84    909  412    26
# dark     98  48    403  681    85

que se refiere a los habitantes de una población de Escocia clasificados según el color de los ojos y el pelo. ¿Habrá una relación entre ambas variables?

Don't be loopy!

Don’t be loopy! es el título de una presentación realizada en el SAS Global Forum de 2007. Tiene que ver con el motivo que me hizo en mi día abandonar SAS y buscar —entonces aún no lo conocía— el cobijo de R: sus limitaciones para todo lo que tiene que ver con simulaciones, remuestreos, jackknifes, _bootstraps _y similares.

El artículo muestra lo que debería ser el estado del arte para realizar este tipo de programas con SAS. En el primero de los problemas que estudia, que denomina bootstrap simple, muestrea 1.000 veces un conjunto de datos de 50.000 observaciones y calcula el valor de la curtosis para cada una de ellas. Finalmente, proporciona un intervalo de confianza para dicho valor.

De la varianza en muestras pequeñas (y el problema del hospital)

En un artículo que enlacé hace un tiempo se planteó el que después recibiría el nombre del problema del hospital:

En una ciudad hay dos hospitales. En el grande, hay, en promedio, 45 partos al día; en el pequeño, 15. La probabilidad de que un recién nacido sea niño o niña se supone igual al 50 %. ¿En qué hospital es más probable que en un día dado la proporción de niñas exceda el 60%?

El juego de las matrículas y su precoda

Busca una matrícula que acabe en 000. Cuando la encuentres, una que acabe en 001. Luego, en 002, etc. Hasta llegar a 999. Si alcanzas ese hito, vuelve a empezar.

Si consigues dar vuelta y media a la serie en menos de 25 años, lo habrás hecho mejor que el personaje altamente singular que inventó el juego, uno de los más eminentes estadísticos vivos. Para saber más de él, te recomiendo que leas esta entrevista. Entre otras cosas igualmente jugosas, encontrarás en ella la solución al siguiente problema: ¿cuál es el número esperado de matrículas que necesitas mirar para completar el ciclo completo?

Clústering (III): sobresimplificación

¿Quién fue el segundo hombre en pisar la luna? ¿Y el tercero? Aunque a veces pareciese lo contrario, ¿sabe que hay futbolistas que no son ni Ronaldo ni Messi? ¿Y otros ciclistas además de Contador e Induráin? ¿Y que la Fórmula 1 no se reduce a un tal Alonso?

Diríase que por razones sicológicas, nuestro cerebro tiende a sobresimplificar, se siente cómodo con una representación escueta de la realidad, es reacio a los distingos y grises. Le pirran las etiquetas: dígame de qué partido político es Vd. y enseguida crearé mis propias certezas sobre su opinión acerca de la Guerra de Irak, la visita del Papa a Madrid y el bikini de Leire Pajín.

El borrador de Ley de transparencia, disponible

Hace unos días, el mismo en el que se anunciaron las elecciones anticipadas (en España) fue publicado el borrador de lo que podría llegar a convertirse en la futura Ley de transparencia.

Aunque el actual gobierno no será ya el encargado de tramitarlo (y a saber qué hará el que llegue), merece la pena echarle un vistazo. Tengo comentarios al respecto, muchos de hecho. Y en gran medida coinciden con los que se expresan en este otro blog.