Números

Grupo de trabajo sobre periodismo de datos en Madrid

El miércoles pasado, en el Medialab Prado de Madrid tuvo lugar la primera reunión del grupo de trabajo sobre Periodismo de datos. Contó con la presencia de Alberto Cairo, cuyo reciente libro, El arte funcional, espero que pase a engrosar mi colección pronto.

En el programa aparecen sesiones tan interesantes como las siguientes:

  • 12.01.2012. Mini taller y charla sobre la captura de datos.
  • 09.02.2012. Mini taller y charla sobre el análisis y el tratamiento de los datos
  • 08.03.2012. Mini taller y charla sobre la presentación y visualización de los datos.

Tengo la impresión de que la comunidad de usuarios de R tiene mucho que aportar a esta iniciativa tan radical en el mundo del periodismo. De hecho, Amanda Cox, del New York Times, ha participado en grupos de usuarios de R mostrando cómo los ayuda a desarrollar su labor.

741 millones de barriles de petróleo, ¿mucho o poco?

Nos amaneció el otro día la prensa con la noticia de que Repsol YPF ha descubierto 741 millones de barriles de petróleo en Argentina. De hecho, periódicamente se realizan hallazgos de mayor o menor cuantía.

Y se nos presentan en la prensa con tan falta de contexto y en términos tan ponderativos que es difícil hacerse una idea de lo minúsculos que resultan si se analizan bajo una perspectiva menos anumérica.

¿Es abierto todo lo que reluce? Resultados

Habiendo hecho eco el otro día en esta bitácora del anuncio de un estudio del grado de real de apertura de los datos del proyecto Aporta, de rigor es que haga mención de los resultados.

En resumen:

  • El 3% de las fuentes de datos que comprende el proyecto cumplen los requisitos mínimos de apertura
  • El 39% de las fuentes de datos catalogadas contienen datos propiamente dichos (y no imágenes, documentos, etc.)
  • En términos de formatos, el 88% (¿del 39% anterior?) son adecuados
  • El 40% permite el acceso directo a la información
  • El 15% de las fuentes de datos permitían la reutilización

¡Pobre resumen!

Medias de medias... ¿a estas alturas de siglo?

Lo sospechaba y ha resultado ser cierto: media de medias. ¡Carajo! El siguiente gráfico que compara la tasa media de paro entre el norte y el sur de España está extraído de El Economista:

¿Cómo se han calculado los porcentajes? Veámoslo (a partir de los datos que aparecen en el artículo); para el sur, promedia las tasas de paro de cada comunidad autónoma así:

mean( c( 30.93, 29.55, 22.44, 24.73, 23.6, 24.19, 33.2, 23.81 ) )
# [1] 26.55625

Operación que, obvia decirlo, sólo sería correcta si la población de todas las comunidades autónomas implicadas fuese, cuando menos, similar (y, p.e., la población de Andalucía fuese comparable a la de Melilla).

Twain, Grecia, Pisa, Cataluña y deontología

Leí un chiste el otro día: aparecía el ministro de economía de Grecia en su despacho revisando unos informes y comentándole a su asesor: “La única solución es volver a mentir”. No sin cierta dosis de razón nos recuerdan de vez en cuando la cita —de problemática atribución a Mark Twain—: Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes y estadísticas.

Ahora nos enteramos de que Cataluña maquilló el resultado del examen de PISA a la educación:

¿Es abierto todo lo que reluce?

Doy publicidad aquí a una entrada de la bitácora gobernamos.com en la que se presenta un estudio acerca del grado real de apertura de los datos del proyecto Aporta.

Para los detalles puede consultarse la entrada original. Pero quiero extraer de ella la referencia al documento Methodology for Releasing Open Data (MELODA), que establece un criterio o método (¡odio emplear metodología!) para determinar el grado de apertura de una fuente de datos, que en su versión simplificada, evalúa si:

Liquidez y solvencia

El bombardeo matinal de noticias a que nos tiene acostumbrada la prensa en los últimos tiempos debería tener el efecto secundario positivo de acrecentar nuestra cultura financiera. Pero no estoy seguro de que sea así.

Uno de los grandes temas que me da la impresión que confunde todavía al público es la diferencia entre liquidez y solvencia.

Yo soy un tipo eminentemente ilíquido: muchos días me enfrento al siguiente problema: aunque pueda permitirme innumerables cafés a razón de 35 céntimos, en ese momento crítico, delante de la máquina expendedora, nunca encuentro la calderilla necesaria.

Riesgo en proyectos de IT

Tu proyecto de IT puede contener más riesgo del que piensas. De verdad. Dan fe de ello Bent Flyvbjerg y Alexander Budzier.

Los autores describen en el artículo que he enlazado encima varios proyectos que fracasaron estrepitosamente y proporcionan algunos consejos para evitar ese tipo de desenlaces. Sin embargo, para quienes siguen esta bitácora, la reflexión más interesante es la siguiente:

Al focalizarse en las medias en lugar de los casos extremos más dañiños, la mayor parte de los gestores y consultores han ignorado el verdadero problema.

Las proyecciones de la población de España a corto plazo del INE no valen para un carajo

Las proyecciones de la población de España a corto plazo del INE no valen para un puto carajo. Tal vez sí para conseguir unos cuantos titulares en prensa como este, este o este otro.

Pero no para lo que se supone que sirve. Además, por construcción. En el documento que explica qué son y para qué sirven dichas proyecciones se lee (con mi subrayado)

La Proyección de Población de España a Corto Plazo elaborada por el INE constituye una simulación estadística del tamaño y estructura demográfica de la población que residiría en España […] en caso de mantenerse las tendencias y los comportamientos demográficos actualmente observados.

Numerismo "interruptus" en el FT

Cuando era menos pobre, antes de la crisis, me desayunaba todos los días con el Financial Times. Me lo daban gratis en el hotel. Al cabo de un año leyéndome cada letra de cada edición, los principales columnistas acabaron siendo como de la familia.

Un tipo al que tengo insana envidia es John Authers. Estése o no de acuerdo con su punto de vista, el hecho de que cada mañana sea capaz de poner en negro sobre sepia una columna increíblemente inteligente es motivo sobrado para sentirse internamente reconcomido. Otra periodista de asombroso insight (odio no saber traducir el término al español) es Gillian Tett.

Ley de Transparencia y anonimidad en ficheros de microdatos

El adelanto electoral puede afectar el debate y aprobación de una ley largamente anunciada, la Ley de Transparencia.

Se trata de una ley que daría derecho a los ciudadanos a obtener datos que obren en poder de (determinados organismos de la) administración del Estado bajo criterios amplios. Ha existido una propuesta inicial del PSOE y otra —considerada superior por los partidarios de los datos abiertos— del PP. Ahora habrá que esperar a la siguiente legislatura, parece ser.

Cálculo mental, alzheimer, anumerismo y 20N

El otro día pensaba yo: si escribiese en un rollo de papel (idealmente infinito) el nombre de todos los españoles, uno en cada línea, de manera que cada línea ocupase, digamos, dos centímetros, ¿cuántos kilómetros de papel me harían falta?

Por redondear, supuse que la población española es de 50M (pecata minuta: de sobreestimarla en un 10%, bastaría con recortar un 10% la respuesta final). Y por azares le propuse el problema a un compañero para que lo resolviese mentalmente. ¡Incapaz! Luego otro, y otro, y otro. Hasta seis y ninguno supo darme una respuesta correcta utilizando sólo cálculo mental.