Periodismo De Datos

Periodismo de datos en Via52.com

El jueves pasado, en MediaLab Prado, tuve ocasión de asistir a una presentación de los responsables de Via52,

un nuevo un semanario digital que quiere sumarse con modestia al panorama mediático. Desde hace meses venimos trabajando en este proyecto, impulsado por David Rojo (@rojovegas) y Andrés Hermosa (@andresh), y que cuenta con la colaboración de un grupo de profesionales del periodismo, el fotoperiodismo, la ilustración y la tecnología.

Lo más interesante de esta publicación para quienes siguen esta bitácora es el énfasis que hacen en el periodismo de datos. Además:

Estoy muy de acuerdo con la CEOE...

… cuando dice que hay que ver qué pasa y analizar las estadísticas. En lo demás, no lo sé (ni lo pienso decir aquí). Pero traigo el asunto a colación porque hace un par de días hablé, un tanto exteporáneamente, sobre desempleo y subsidios. Y uno de mis lectores hizo un comentario del que extraigo

No me gusta, no me gusta que se insinúe siempre que “España está llena de listos, que agotan el paro porque les sale mejor que trabajar”.

Higiene numérica para periodistas

De la bitácora de Getstats y a través de un enlace publicado por Alberto Cairo en su cuenta de Twitter, he llegado a lo que los periodistas deberían saber (para informar correctamente cuando el asunto tiene tintes cuantitativos).

Proporciona un enlace a un documento que me tomo la libertad de traducir aquí. Se trata de una lista con los siguientes doce consejos:

  1. Si tropiezas con un número en una historia o comunicado de prensa, ten cuidado. Antes de darlo por bueno, pregúntate quién lo proporciona, cuáles son sus credenciales, si puede estar tratando de venderte algo. ¿Con qué otra evidencia se cuenta? ¿Cuáles son los números que no se muestran? ¿Por qué ese número precisamente ahora? Si el número procede de un estudio o de una investigación, ¿cuenta con visto bueno de algún experto de garantía?
  2. Husmea. ¿El número se refiere a una muestra? ¿A la población entera? En el primer caso, ¿la muestra se ha extraído adecuadamente? ¿Es representativa de la población?
  3. Profundiza. ¿Qué fue lo que se preguntó exactamente? La manera en que se formula una pregunta influye enormemente en la respuesta. Lo que se entiende por “tener trabajo” o “crimen violento” varía de persona a persona. Lo que la gente entiende puede no ser lo mismo que pensaba quien diseñó la encuesta.
  4. Para compendiar resultados pueden utilizarse distintos criterios. Por ejemplo, la media, que es altamente sensible a los valores extremos (la fortuna de Amancio Ortega incrementa el patrimonio _medio _de los españoles en unos 400 euros), pero también la mediana o la moda, con efectos distintos.
  5. La incertidumbre existe. Tenemos que estar seguros de la cifra obtenida no es efecto de la casualidad. Si se trata de una muestra, comprueba el margen de error, el ±3% que generalmente indican las compañías más serias. Si se dice en tal caso que el 52% de la muestra apoya X, el valor verdadero podría ser igualmente del 49%. Desconfía de los rankings, excepto los deportivos: el Real Madrid está por encima del Real Zaragoza por un buen motivo: ha obtenido más puntos en la liga. Pero la comparación de escuelas u hospitales es problemática y una escala simple podría no ser el instrumento adecuado: por ejemplo, un determinado hospital puede parecer peor, pero que suceda así porque recibe enfermos más graves. La comparación entre universidades o fuerzas policiales puede resultar no significativa si la diferencia entre puntuaciones es menor que el margen de error: si A obtiene 500 puntos y B 555, con un margen del error ±3% no puede decirse que A sea peor que B.
  6. Puede que los números indiquen una variación. Sin embargo, un solo cambio no significa una tendencia. Los saltos suceden a menudo. De suceder, podemos preguntarnos si obedecen a una recuperación o vuelta a la normalidad después de un salto en previo en la dirección opuesta (lo que algunos llaman regresión a la media). Si los números proceden de una encuesta, ¿excede el cambio el margen de error?
  7. De no realizarse un experimento controlado, (como los ensayos clínicos para estudiar el efecto de los nuevos medicamentos), es muy difícil poder afirmar que A causa B : los números pueden mostrar una asociación (una correlación) entre dos cosas como, por ejemplo, entre la obesidad y el cáncer. Pueden aparecer conexiones espurias debidas a un tercer factor no observado. El que los niños que usan teléfonos móviles presenten ciertos trastornos de conducta puede deberse a sus padres, cuyo comportamiento afecta a ambas cosas. Si los números sugieren una asociación, lo importante es evaluar su plausibilidad utilizando información adicional. El encontrar una posible causa puede estimular la investigación pero no debería ser utilizado para impulsar determinado tipo de políticas, por ejemplo. Tampoco se deben realizar recomendaciones sobre el consumo de ciertos alimentos basadas en presuntas asociaciones entre ellos y determinadas dolencias.
  8. Una pregunta clave es “¿de cuántos?”. Algunos sucesos son inusuales, como la muerte de un niño, y por eso son noticia. Pero tienen que considerarse en su contexto. La improbabilidad de un suceso es una medida de su relevancia como noticia. Pero es necesario distinguir lo que resulta importante para una determinada familia de lo que afecta al interés general.
  9. Los millones y los miles de millones son cifras difíciles de comprender si no se humanizan comparándolas, por ejemplo, con el país entero o mostrando su efecto sobre cada persona. Ciertas descripciones pueden ayudar a comprender el riesgo: es tan peligroso hacer un viaje de 100 km en moto como operarse con anestesia general.
  10. Una buena información debe ofrecer una visión equilibrada entre las cifras a las que se refiere. Es mejor centrarse en el número más probable que en los más extremos. Por ejemplo, en las historias sobre los efectos de una epidemia de gripe, en lugar de fórmulas como podría llegar a alcanzar valores tan altos como… son preferibles las del tipo _es improbable que exceda… _. Como los números pueden ser malinterpretados, es preferible eliminar el sesgo.
  11. El riesgo es arriesgado. Por ejemplo, la frase comer panceta diariamente aumenta el riesgo de llegar a padecer cáncer de intestino en un 20% viene a decir lo mismo que de cada 100 personas que comen panceta diariamente, una más acabarás sufriendo cáncer de intestino. Pero la primera es alarmista e inexacta. De estar disponible, es conveniente expresar la información en términos del número de afectados por cada cien o cien mil personas.
  12. Los medios digitales permiten mostrar datos de manera más dinámica e imaginativa. En cualquier caso, siempre hay que preguntarse: ¿son claros los gráficos? ¿Cuentan la misma historia que el texto?

R y alRededoRes en MediaLab Prado

R

Con retraso —del que mis vacaciones en tierras australes tienen la culpa— doy noticia de la charla que dio Carlos Ortega, antiguo colaborador de esta bitácora, en MediaLab Prado, dentro del ciclo de periodismo de datos.

La presentación que hizo y su vídeo pueden consultarse en línea.

Quiero también subrayar y dejar constancia para los futuros historiadores de la cosa que esta ha sido la primera actividad pública promovida por la recientemente constituida Comunidad de Usuarios de R (que tengo, como es probable que sepan ya mis lectores, el honor de presidir).

Captura de datos, MediaLab Prado y NeedleBase

Ya he hablado en ocasiones anteriores en este foro de MediaLab Prado. Y también de los talleres que está realizando sobre periodismo de datos.

El día 12 de enero —y a ver qué invento para poder acudir— habrá una sesión sobre captura de datos uno de cuyos talleres tratará sobre scrapping usando NeedleBase.

Anoche vi el siguiente vídeo sobre esta herramienta,

y quedé impactado sobre las cosas que puede llegar a hacer.