Estadística

Curso de Estadística Aplicada a la Investigación Biomédica con R en el CNIO

Me acaba de llegar la noticia de que el Centro Nacional de Investigaciones Oncológicas (CNIO) va a organizar en Madrid los días 25, 26 y 27 de Abril de 2012 el curso Estadística Aplicada a la Investigación Biomédica con R.

El objetivo del curso es cubrir las técnicas más utilizadas en la aplicación de la estadística a las ciencias de la salud, a la práctica clínica y epidemiológica y a la investigación biomédica en general. El desarrollo del curso se basa en la explicación y aplicación de los conceptos estadísticos desde un punto de vista práctico y en el uso de R. R ha sido elegido, según los organizadores, debido a la gran importancia que está tomando como software estadístico de referencia en muchos centros de investigación por su versatilidad.

Guía de econometría básica con R

Aunque muchos de mis lectores ya estarán al corriente de la noticia, la reitero aquí: Gregorio Serrano ha comenzado una serie de artículos en su bitácora sobre econometría básica con R.

Puede seguirse por RSS (incluso usando mi agregador de noticias sobre R en RSS o HTML) y en su cuenta de Twitter.

Addenda: En 2021, desactivo los enlaces rotos/inactivos. El curso, de hecho, está aparentemente desaparecido. Si alguien tiene noticia sobre cómo acceder a él, le ruego que se ponga en contacto conmigo.

La frontera bayesiana en problemas de clasificación (simples)

Una de las preguntas formuladas dentro del foro desde el que seguimos la lectura del libro The Elements of Statistsical Learning se refiere a cómo construir la frontera bayesiana óptima en ciertos problemas de clasificación.

Voy a plantear aquí una discusión así como código en R para representarla (en casos simples y bidimensionales).

Supongamos que hay que crear un clasificador que distinga entre puntos rojos y verdes con la siguiente pinta,

Hay (micro)vida más allá de la (micro)muerte

Hablamos ya hace un tiempo de las micromuertes. Ahora toca traer a la atención de mis lectores un concepto asociado, el de las microvidas.

Una microvida corresponde a una esperanza de vida de media hora. Malgasta una microvida quien fuma dos cigarros, bebe siete unidades de alcohol (equivalentes a  un litro de cerveza) o vive un día con un sobrepeso de 5 kg.

Microvidas y micromuertes son conceptos análogos, pero no enteramente equivalentes. Ambos nos ayudan a cuantificar pequeños riesgos. Sin embargo, el efecto de las microvidas es acumulativo mientras que el de las micromuertes no: quien haya terminado vivo su sesión de parapente, habrá puesto a cero su contador de micromuertes, pero no así quien haya fumado su segundo cigarro.

Limpieza de cartera y miscelánea de artículos

He decidido limpiar mi cartera. Llevo en ella unos cuantos artículos impresos que me acompañan desde hace mucho y que, por un lado, me da pena tirar y, por el otro, no me aportan en el día a día. Voy a reciclar el papel sobre el que los imprimí y, a la vez, dejar en enlace a ellos por si a mí un día (o a alguno de mis lectores otro) me da por volver sobre ellos. Son:

Localidad, globalidad y maldición de la dimensionalidad

Escribo hoy al hilo de una pregunta de la lista de correo de quienes estamos leyendo The elements of statistical learning.

Hace referencia a la discusión del capítulo 2 del libro anterior en el que trata:

  • El compromiso (trade off) entre el sesgo y la varianza de los modelos predictivos.
  • Cómo los modelos locales (como los k-vecinos) tienden a tener poco sesgo y mucha varianza.
  • Cómo los modelos globales (como los de regresión) tienden a tener poca varianza y mucho sesgo.
  • Cómo la maldición de la dimensionalidad afecta muy seriamente a los modelos locales y mucho menos a los globales.

Y voy a tratar de ilustrar esos conceptos con un ejemplo extraído de mi experiencia de consultor.

Comienza la lectura de “The Elements of Statistical Learning”

Mediante la presente, notifico a los interesados en la lectura de “The Elements of Statistical Learning” que esta semana tenemos que dar cuenta de los capítulos 1 (que es una introducción muy ligera) y 2 (donde comienza el tomate realmente).

Esta noche Juanjo Gibaja y yo estudiaremos la mecánica de lectura en común.

Los interesados pueden escribirme a cgb@datanalytics.com para, de momento, crear una lista de correo.

IBM sobre Excel como herramienta estadística

Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM quien abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo.

Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores.

p, n y mi moneda de la suerte

Tengo una moneda de la suerte. Es una moneda de cinco duros, del mundial 82. No es tanto de la suerte (en esta bitácora somos gente seria, carajo) como —tengo razones para sospechar— una moneda sesgada.

De hecho, el otro día hice un experimento: la tiré al aire 20 veces y obtuve 14 caras. De acuerdo con R,

1 - pbinom( 14, 20, 0.5 )
[1] 0.02069473

puedo rechazar la hipótesis de que es una moneda cabal con un nivel de confianza (p-valor) de 0.021.