Estadística

Estrenos con ecos estadísticos (I): Moneyball

Mi extemporáneo periodo vacacional me ha dado, entre otras cosas, para ver dos películas en las que resuenan claros ecos relacionados con la estadística.

La primera de ellas es Moneyball, basada en el libro homónimo. Cuenta la historia de un equipo de béisbol con escasos recursos que utiliza técnicas estadísticas —desafiando así los inveterados procedimientos subjetivos de los ojeadores— para identificar y fichar a los jugadores adecuados para alcanzar el objetivo último del deporte: ganar.

Curso de Estadística Aplicada a la Investigación Biomédica con R en el CNIO

Me acaba de llegar la noticia de que el Centro Nacional de Investigaciones Oncológicas (CNIO) va a organizar en Madrid los días 25, 26 y 27 de Abril de 2012 el curso Estadística Aplicada a la Investigación Biomédica con R.

El objetivo del curso es cubrir las técnicas más utilizadas en la aplicación de la estadística a las ciencias de la salud, a la práctica clínica y epidemiológica y a la investigación biomédica en general. El desarrollo del curso se basa en la explicación y aplicación de los conceptos estadísticos desde un punto de vista práctico y en el uso de R. R ha sido elegido, según los organizadores, debido a la gran importancia que está tomando como software estadístico de referencia en muchos centros de investigación por su versatilidad.

La frontera bayesiana en problemas de clasificación (simples)

Una de las preguntas formuladas dentro del foro desde el que seguimos la lectura del libro The Elements of Statistsical Learning se refiere a cómo construir la frontera bayesiana óptima en ciertos problemas de clasificación.

Voy a plantear aquí una discusión así como código en R para representarla (en casos simples y bidimensionales).

Supongamos que hay que crear un clasificador que distinga entre puntos rojos y verdes con la siguiente pinta,

Hay (micro)vida más allá de la (micro)muerte

Hablamos ya hace un tiempo de las micromuertes. Ahora toca traer a la atención de mis lectores un concepto asociado, el de las microvidas.

Una microvida corresponde a una esperanza de vida de media hora. Malgasta una microvida quien fuma dos cigarros, bebe siete unidades de alcohol (equivalentes a  un litro de cerveza) o vive un día con un sobrepeso de 5 kg.

Microvidas y micromuertes son conceptos análogos, pero no enteramente equivalentes. Ambos nos ayudan a cuantificar pequeños riesgos. Sin embargo, el efecto de las microvidas es acumulativo mientras que el de las micromuertes no: quien haya terminado vivo su sesión de parapente, habrá puesto a cero su contador de micromuertes, pero no así quien haya fumado su segundo cigarro.

Limpieza de cartera y miscelánea de artículos

He decidido limpiar mi cartera. Llevo en ella unos cuantos artículos impresos que me acompañan desde hace mucho y que, por un lado, me da pena tirar y, por el otro, no me aportan en el día a día. Voy a reciclar el papel sobre el que los imprimí y, a la vez, dejar en enlace a ellos por si a mí un día (o a alguno de mis lectores otro) me da por volver sobre ellos. Son:

IBM sobre Excel como herramienta estadística

Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM el que abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo.

Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores.

p, n y mi moneda de la suerte

Tengo una moneda de la suerte. Es una moneda de cinco duros, del mundial 82. No es tanto de la suerte (en esta bitácora somos gente seria, carajo) como —tengo razones para sospechar— una moneda sesgada.

De hecho, el otro día hice un experimento: la tiré al aire 20 veces y obtuve 14 caras. De acuerdo con R,

1 - pbinom( 14, 20, 0.5 )
[1] 0.02069473

puedo rechazar la hipótesis de que es una moneda cabal con un nivel de confianza (p-valor) de 0.021.

¿La correlación "del siglo XXI"?

Bajo el título Detecting Novel Associations in Large Data Sets se ha publicado recientemente en Science un coeficiente alternativo a la correlación de toda la vida para cuantificar la relación funcional entre dos variables.

El artículo (que no he podido leer: si alguien me pudiera pasar el pdf…) ha tenido cierto impacto, al menos momentáneo, en la red. Puede leerse un resumen en esta entrada u otro bastante más cauto en la de A. Gelman. Existe información adicional (e incluso código en R) en esta página.

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico

que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales.