Estadística

¿Varianza explicada?

Sin darnos cuenta, abusamos de ciertos términos. Uno de ellos es el de la varianza explicada. Después de años utilizándolo como por inercia, he venido a darme cuenta por dos vías distintas de su impropiedad: una de mis recientes lecturas y una experiencia profesional.

Tal vez sea más sencillo comenzar exponiendo la crítica realizada en esa página. Parte del análisis de la serie de muertes en Chicago entre 1987 y el 2000:

Esperanzador no: varianzador

Que conste que soy un partidario de los adjetivos. Supongo que por sentimentalismo. Me caen simpáticos excepto

  • cuando se abusa de ellos y se dice, por ejemplo, analítica en lugar de análisis o normativa en lugar de norma o
  • los usan estadísticos en horario laboral.

Y si trabajan en el INE, aún más: se les paga por estadísticos, no por guionistas de opereta.

Viene esto al siguiente párrafo (con mi subrayado):

Desconfianza en la estadística pública Argentina

Pasé recientemente unas semanas en Argentina. Abundan las razones para que todos hiciesen eso alguna vez en la vida.

Aproveché para descansar de muchas cosas. Y muy especialmente de ese leísmo rampante y agotador que viene últimamente caracterizando al español peninsular.

Tuve ocasión de hablar de política. De la de acá y de la de allá. Me preguntaron por mi opinión por la K, es decir, el matrimonio Kirchner que controla la política nacional desde hace casi diez años. Honestamente, encuentro los modos de los políticos argentinos —y muy especialmente los de su presidenta— demasiado teatrales, dramáticos, conmovedores. Y no es mi estilo, aunque reconozco que es una mera cuestión de formas.

Estoy muy de acuerdo con la CEOE...

… cuando dice que hay que ver qué pasa y analizar las estadísticas. En lo demás, no lo sé (ni lo pienso decir aquí). Pero traigo el asunto a colación porque hace un par de días hablé, un tanto exteporáneamente, sobre desempleo y subsidios. Y uno de mis lectores hizo un comentario del que extraigo

No me gusta, no me gusta que se insinúe siempre que “España está llena de listos, que agotan el paro porque les sale mejor que trabajar”.

Higiene numérica para periodistas

De la bitácora de Getstats y a través de un enlace publicado por Alberto Cairo en su cuenta de Twitter, he llegado a lo que los periodistas deberían saber (para informar correctamente cuando el asunto tiene tintes cuantitativos).

Proporciona un enlace a un documento que me tomo la libertad de traducir aquí. Se trata de una lista con los siguientes doce consejos:

  1. Si tropiezas con un número en una historia o comunicado de prensa, ten cuidado. Antes de darlo por bueno, pregúntate quién lo proporciona, cuáles son sus credenciales, si puede estar tratando de venderte algo. ¿Con qué otra evidencia se cuenta? ¿Cuáles son los números que no se muestran? ¿Por qué ese número precisamente ahora? Si el número procede de un estudio o de una investigación, ¿cuenta con visto bueno de algún experto de garantía?
  2. Husmea. ¿El número se refiere a una muestra? ¿A la población entera? En el primer caso, ¿la muestra se ha extraído adecuadamente? ¿Es representativa de la población?
  3. Profundiza. ¿Qué fue lo que se preguntó exactamente? La manera en que se formula una pregunta influye enormemente en la respuesta. Lo que se entiende por “tener trabajo” o “crimen violento” varía de persona a persona. Lo que la gente entiende puede no ser lo mismo que pensaba quien diseñó la encuesta.
  4. Para compendiar resultados pueden utilizarse distintos criterios. Por ejemplo, la media, que es altamente sensible a los valores extremos (la fortuna de Amancio Ortega incrementa el patrimonio _medio _de los españoles en unos 400 euros), pero también la mediana o la moda, con efectos distintos.
  5. La incertidumbre existe. Tenemos que estar seguros de la cifra obtenida no es efecto de la casualidad. Si se trata de una muestra, comprueba el margen de error, el ±3% que generalmente indican las compañías más serias. Si se dice en tal caso que el 52% de la muestra apoya X, el valor verdadero podría ser igualmente del 49%. Desconfía de los rankings, excepto los deportivos: el Real Madrid está por encima del Real Zaragoza por un buen motivo: ha obtenido más puntos en la liga. Pero la comparación de escuelas u hospitales es problemática y una escala simple podría no ser el instrumento adecuado: por ejemplo, un determinado hospital puede parecer peor, pero que suceda así porque recibe enfermos más graves. La comparación entre universidades o fuerzas policiales puede resultar no significativa si la diferencia entre puntuaciones es menor que el margen de error: si A obtiene 500 puntos y B 555, con un margen del error ±3% no puede decirse que A sea peor que B.
  6. Puede que los números indiquen una variación. Sin embargo, un solo cambio no significa una tendencia. Los saltos suceden a menudo. De suceder, podemos preguntarnos si obedecen a una recuperación o vuelta a la normalidad después de un salto en previo en la dirección opuesta (lo que algunos llaman regresión a la media). Si los números proceden de una encuesta, ¿excede el cambio el margen de error?
  7. De no realizarse un experimento controlado, (como los ensayos clínicos para estudiar el efecto de los nuevos medicamentos), es muy difícil poder afirmar que A causa B : los números pueden mostrar una asociación (una correlación) entre dos cosas como, por ejemplo, entre la obesidad y el cáncer. Pueden aparecer conexiones espurias debidas a un tercer factor no observado. El que los niños que usan teléfonos móviles presenten ciertos trastornos de conducta puede deberse a sus padres, cuyo comportamiento afecta a ambas cosas. Si los números sugieren una asociación, lo importante es evaluar su plausibilidad utilizando información adicional. El encontrar una posible causa puede estimular la investigación pero no debería ser utilizado para impulsar determinado tipo de políticas, por ejemplo. Tampoco se deben realizar recomendaciones sobre el consumo de ciertos alimentos basadas en presuntas asociaciones entre ellos y determinadas dolencias.
  8. Una pregunta clave es “¿de cuántos?”. Algunos sucesos son inusuales, como la muerte de un niño, y por eso son noticia. Pero tienen que considerarse en su contexto. La improbabilidad de un suceso es una medida de su relevancia como noticia. Pero es necesario distinguir lo que resulta importante para una determinada familia de lo que afecta al interés general.
  9. Los millones y los miles de millones son cifras difíciles de comprender si no se humanizan comparándolas, por ejemplo, con el país entero o mostrando su efecto sobre cada persona. Ciertas descripciones pueden ayudar a comprender el riesgo: es tan peligroso hacer un viaje de 100 km en moto como operarse con anestesia general.
  10. Una buena información debe ofrecer una visión equilibrada entre las cifras a las que se refiere. Es mejor centrarse en el número más probable que en los más extremos. Por ejemplo, en las historias sobre los efectos de una epidemia de gripe, en lugar de fórmulas como podría llegar a alcanzar valores tan altos como… son preferibles las del tipo _es improbable que exceda… _. Como los números pueden ser malinterpretados, es preferible eliminar el sesgo.
  11. El riesgo es arriesgado. Por ejemplo, la frase comer panceta diariamente aumenta el riesgo de llegar a padecer cáncer de intestino en un 20% viene a decir lo mismo que de cada 100 personas que comen panceta diariamente, una más acabarás sufriendo cáncer de intestino. Pero la primera es alarmista e inexacta. De estar disponible, es conveniente expresar la información en términos del número de afectados por cada cien o cien mil personas.
  12. Los medios digitales permiten mostrar datos de manera más dinámica e imaginativa. En cualquier caso, siempre hay que preguntarse: ¿son claros los gráficos? ¿Cuentan la misma historia que el texto?

Estrenos con ecos estadísticos (I): Moneyball

Mi extemporáneo periodo vacacional me ha dado, entre otras cosas, para ver dos películas en las que resuenan claros ecos relacionados con la estadística.

La primera de ellas es Moneyball, basada en el libro homónimo. Cuenta la historia de un equipo de béisbol con escasos recursos que utiliza técnicas estadísticas —desafiando así los inveterados procedimientos subjetivos de los ojeadores— para identificar y fichar a los jugadores adecuados para alcanzar el objetivo último del deporte: ganar.

Curso de Estadística Aplicada a la Investigación Biomédica con R en el CNIO

Me acaba de llegar la noticia de que el Centro Nacional de Investigaciones Oncológicas (CNIO) va a organizar en Madrid los días 25, 26 y 27 de Abril de 2012 el curso Estadística Aplicada a la Investigación Biomédica con R.

El objetivo del curso es cubrir las técnicas más utilizadas en la aplicación de la estadística a las ciencias de la salud, a la práctica clínica y epidemiológica y a la investigación biomédica en general. El desarrollo del curso se basa en la explicación y aplicación de los conceptos estadísticos desde un punto de vista práctico y en el uso de R. R ha sido elegido, según los organizadores, debido a la gran importancia que está tomando como software estadístico de referencia en muchos centros de investigación por su versatilidad.

Guía de econometría básica con R

Aunque muchos de mis lectores ya estarán al corriente de la noticia, la reitero aquí: Gregorio Serrano ha comenzado una serie de artículos en su bitácora sobre econometría básica con R.

Puede seguirse por RSS (incluso usando mi agregador de noticias sobre R en RSS o HTML) y en su cuenta de Twitter.

Addenda: En 2021, desactivo los enlaces rotos/inactivos. El curso, de hecho, está aparentemente desaparecido. Si alguien tiene noticia sobre cómo acceder a él, le ruego que se ponga en contacto conmigo.

La frontera bayesiana en problemas de clasificación (simples)

Una de las preguntas formuladas dentro del foro desde el que seguimos la lectura del libro The Elements of Statistsical Learning se refiere a cómo construir la frontera bayesiana óptima en ciertos problemas de clasificación.

Voy a plantear aquí una discusión así como código en R para representarla (en casos simples y bidimensionales).

Supongamos que hay que crear un clasificador que distinga entre puntos rojos y verdes con la siguiente pinta,

Hay (micro)vida más allá de la (micro)muerte

Hablamos ya hace un tiempo de las micromuertes. Ahora toca traer a la atención de mis lectores un concepto asociado, el de las microvidas.

Una microvida corresponde a una esperanza de vida de media hora. Malgasta una microvida quien fuma dos cigarros, bebe siete unidades de alcohol (equivalentes a  un litro de cerveza) o vive un día con un sobrepeso de 5 kg.

Microvidas y micromuertes son conceptos análogos, pero no enteramente equivalentes. Ambos nos ayudan a cuantificar pequeños riesgos. Sin embargo, el efecto de las microvidas es acumulativo mientras que el de las micromuertes no: quien haya terminado vivo su sesión de parapente, habrá puesto a cero su contador de micromuertes, pero no así quien haya fumado su segundo cigarro.

Limpieza de cartera y miscelánea de artículos

He decidido limpiar mi cartera. Llevo en ella unos cuantos artículos impresos que me acompañan desde hace mucho y que, por un lado, me da pena tirar y, por el otro, no me aportan en el día a día. Voy a reciclar el papel sobre el que los imprimí y, a la vez, dejar en enlace a ellos por si a mí un día (o a alguno de mis lectores otro) me da por volver sobre ellos. Son:

Localidad, globalidad y maldición de la dimensionalidad

Escribo hoy al hilo de una pregunta de la lista de correo de quienes estamos leyendo The elements of statistical learning.

Hace referencia a la discusión del capítulo 2 del libro anterior en el que trata:

  • El compromiso (trade off) entre el sesgo y la varianza de los modelos predictivos.
  • Cómo los modelos locales (como los k-vecinos) tienden a tener poco sesgo y mucha varianza.
  • Cómo los modelos globales (como los de regresión) tienden a tener poca varianza y mucho sesgo.
  • Cómo la _maldición de la dimensionalida_d afecta muy seriamente a los modelos locales y mucho menos a los globales.

Y voy a tratar de ilustrar esos conceptos con un ejemplo extraído de mi experiencia de consultor.