Estadística

Acceso y reutilización de datos públicos

Las leyes son un carajal. Últimamente he tenido que enfrentarme a algunas y me doy cuenta de que es un error que los abogados (y los legisladores) no hayan seguido nunca un buen curso de geometría euclídea.

Pongo un ejemplo. La Constitución Española (artículo 22) dice que las asociaciones deberán inscribirse en un registro a los solos efectos de publicidad. Pues bien, parece ser que una asociación, y nos ocurrió con la Comunidad R Hispano no es legal (para poder abrir una cuenta corriente, por ejemplo) de no inscribirse en el registro. ¿Pero no era a los solos efectos de publicidad? ¿Son lo mismo publicidad y legalidad?

2013, año internacional de la estadística

En 2013 celebraremos el Año Internacional de la Estadística. Diversas organizaciones estadísticas, entre las que no veo al INE, se han unido para dar a conocer “la importancia de la estadística en la comunidad científica, el mundo de los negocios, la administración pública, los medios de comunicación, las empresas, los estudiantes y el público en general”.

Pueden consultarse las actividades programadas y la lista de organizaciones patrocinadoras, a la que es posible que es sume la Comunidad R Hispano.

Estrenos con ecos estadísticos (II): Contagio

La otra de las películas que vi durante mis vacaciones en que resonaban ecos estadísticos fue Contagio. Como casi todas las películas, personaliza. Y es que a la gente le gusta ver caras. Así nos cuenta la historia de una rubia, su marido, su hija, etc. Excipiente lacrimógeno.

(Aunque alguien pueda querer ver en la rubia la trasunta de Gaëtan Dugas, el paciente cero; igual que —según algunos— Dugas, es la primera persona en contagiarse de un virus letal y lo transporta a EE.UU., donde se desencadena una epidemia).

¿Varianza explicada?

Sin darnos cuenta, abusamos de ciertos términos. Uno de ellos es el de la varianza explicada. Después de años utilizándolo como por inercia, he venido a darme cuenta por dos vías distintas de su impropiedad: una de mis recientes lecturas y una experiencia profesional.

Tal vez sea más sencillo comenzar exponiendo la crítica realizada en esa página. Parte del análisis de la serie de muertes en Chicago entre 1987 y el 2000:

Esperanzador no: varianzador

Que conste que soy un partidario de los adjetivos. Supongo que por sentimentalismo. Me caen simpáticos excepto

  • cuando se abusa de ellos y se dice, por ejemplo, analítica en lugar de análisis o normativa en lugar de norma o
  • los usan estadísticos en horario laboral.

Y si trabajan en el INE, aún más: se les paga por estadísticos, no por guionistas de opereta.

Viene esto al siguiente párrafo (con mi subrayado):

Desconfianza en la estadística pública Argentina

Pasé recientemente unas semanas en Argentina. Abundan las razones para que todos hiciesen eso alguna vez en la vida.

Aproveché para descansar de muchas cosas. Y muy especialmente de ese leísmo rampante y agotador que viene últimamente caracterizando al español peninsular.

Tuve ocasión de hablar de política. De la de acá y de la de allá. Me preguntaron por mi opinión por la K, es decir, el matrimonio Kirchner que controla la política nacional desde hace casi diez años. Honestamente, encuentro los modos de los políticos argentinos —y muy especialmente los de su presidenta— demasiado teatrales, dramáticos, conmovedores. Y no es mi estilo, aunque reconozco que es una mera cuestión de formas.

Estoy muy de acuerdo con la CEOE...

… cuando dice que hay que ver qué pasa y analizar las estadísticas. En lo demás, no lo sé (ni lo pienso decir aquí). Pero traigo el asunto a colación porque hace un par de días hablé, un tanto exteporáneamente, sobre desempleo y subsidios. Y uno de mis lectores hizo un comentario del que extraigo

No me gusta, no me gusta que se insinúe siempre que “España está llena de listos, que agotan el paro porque les sale mejor que trabajar”.

Higiene numérica para periodistas

De la bitácora de Getstats y a través de un enlace publicado por Alberto Cairo en su cuenta de Twitter, he llegado a lo que los periodistas deberían saber (para informar correctamente cuando el asunto tiene tintes cuantitativos).

Proporciona un enlace a un documento que me tomo la libertad de traducir aquí. Se trata de una lista con los siguientes doce consejos:

  1. Si tropiezas con un número en una historia o comunicado de prensa, ten cuidado. Antes de darlo por bueno, pregúntate quién lo proporciona, cuáles son sus credenciales, si puede estar tratando de venderte algo. ¿Con qué otra evidencia se cuenta? ¿Cuáles son los números que no se muestran? ¿Por qué ese número precisamente ahora? Si el número procede de un estudio o de una investigación, ¿cuenta con visto bueno de algún experto de garantía?
  2. Husmea. ¿El número se refiere a una muestra? ¿A la población entera? En el primer caso, ¿la muestra se ha extraído adecuadamente? ¿Es representativa de la población?
  3. Profundiza. ¿Qué fue lo que se preguntó exactamente? La manera en que se formula una pregunta influye enormemente en la respuesta. Lo que se entiende por “tener trabajo” o “crimen violento” varía de persona a persona. Lo que la gente entiende puede no ser lo mismo que pensaba quien diseñó la encuesta.
  4. Para compendiar resultados pueden utilizarse distintos criterios. Por ejemplo, la media, que es altamente sensible a los valores extremos (la fortuna de Amancio Ortega incrementa el patrimonio _medio _de los españoles en unos 400 euros), pero también la mediana o la moda, con efectos distintos.
  5. La incertidumbre existe. Tenemos que estar seguros de la cifra obtenida no es efecto de la casualidad. Si se trata de una muestra, comprueba el margen de error, el ±3% que generalmente indican las compañías más serias. Si se dice en tal caso que el 52% de la muestra apoya X, el valor verdadero podría ser igualmente del 49%. Desconfía de los rankings, excepto los deportivos: el Real Madrid está por encima del Real Zaragoza por un buen motivo: ha obtenido más puntos en la liga. Pero la comparación de escuelas u hospitales es problemática y una escala simple podría no ser el instrumento adecuado: por ejemplo, un determinado hospital puede parecer peor, pero que suceda así porque recibe enfermos más graves. La comparación entre universidades o fuerzas policiales puede resultar no significativa si la diferencia entre puntuaciones es menor que el margen de error: si A obtiene 500 puntos y B 555, con un margen del error ±3% no puede decirse que A sea peor que B.
  6. Puede que los números indiquen una variación. Sin embargo, un solo cambio no significa una tendencia. Los saltos suceden a menudo. De suceder, podemos preguntarnos si obedecen a una recuperación o vuelta a la normalidad después de un salto en previo en la dirección opuesta (lo que algunos llaman regresión a la media). Si los números proceden de una encuesta, ¿excede el cambio el margen de error?
  7. De no realizarse un experimento controlado, (como los ensayos clínicos para estudiar el efecto de los nuevos medicamentos), es muy difícil poder afirmar que A causa B : los números pueden mostrar una asociación (una correlación) entre dos cosas como, por ejemplo, entre la obesidad y el cáncer. Pueden aparecer conexiones espurias debidas a un tercer factor no observado. El que los niños que usan teléfonos móviles presenten ciertos trastornos de conducta puede deberse a sus padres, cuyo comportamiento afecta a ambas cosas. Si los números sugieren una asociación, lo importante es evaluar su plausibilidad utilizando información adicional. El encontrar una posible causa puede estimular la investigación pero no debería ser utilizado para impulsar determinado tipo de políticas, por ejemplo. Tampoco se deben realizar recomendaciones sobre el consumo de ciertos alimentos basadas en presuntas asociaciones entre ellos y determinadas dolencias.
  8. Una pregunta clave es “¿de cuántos?”. Algunos sucesos son inusuales, como la muerte de un niño, y por eso son noticia. Pero tienen que considerarse en su contexto. La improbabilidad de un suceso es una medida de su relevancia como noticia. Pero es necesario distinguir lo que resulta importante para una determinada familia de lo que afecta al interés general.
  9. Los millones y los miles de millones son cifras difíciles de comprender si no se humanizan comparándolas, por ejemplo, con el país entero o mostrando su efecto sobre cada persona. Ciertas descripciones pueden ayudar a comprender el riesgo: es tan peligroso hacer un viaje de 100 km en moto como operarse con anestesia general.
  10. Una buena información debe ofrecer una visión equilibrada entre las cifras a las que se refiere. Es mejor centrarse en el número más probable que en los más extremos. Por ejemplo, en las historias sobre los efectos de una epidemia de gripe, en lugar de fórmulas como podría llegar a alcanzar valores tan altos como… son preferibles las del tipo _es improbable que exceda… _. Como los números pueden ser malinterpretados, es preferible eliminar el sesgo.
  11. El riesgo es arriesgado. Por ejemplo, la frase comer panceta diariamente aumenta el riesgo de llegar a padecer cáncer de intestino en un 20% viene a decir lo mismo que de cada 100 personas que comen panceta diariamente, una más acabarás sufriendo cáncer de intestino. Pero la primera es alarmista e inexacta. De estar disponible, es conveniente expresar la información en términos del número de afectados por cada cien o cien mil personas.
  12. Los medios digitales permiten mostrar datos de manera más dinámica e imaginativa. En cualquier caso, siempre hay que preguntarse: ¿son claros los gráficos? ¿Cuentan la misma historia que el texto?