Periodismo

Ya, pero ¿es viable un fact check descentralizado? Entonces, ¿qué hacer?

Me llegó ayer por Twitter lo siguiente:

Lo había publicado alguien que no conocía y retuiteado (por eso me alcanzó) una persona que sigo porque me consta que sabe de unos temas pero que ignoro en qué medida está puesta en los geopolíticos y la historia económica de las naciones del mundo.

Los datos llaman la atención: son interesantes y no obvios. Pero sabemos que la intersección de lo intersante, no obvio y cierto es prácticamente el conjunto vacío. Por lo que hay una alta probabilidad de que esos datos de presunto origen en el IMF y los muy adictos al Excel (y a meter la pata con él) Rienhart & Rogoff hayan sido embellecidos.

He tratado de contrastar una hipótesis sin éxito, así que solo publico el subproducto

R

Inspirado por esto he tratado de contrastar una hipótesis en otro contexto.

Las cosas, o se hacen bien, o no se hacen. Como mi análisis se ha complicado con casos y casitos particulares, aunque siga pensándo cierta (en caso de tener que apostar, como priori, claro) la hipótesis de partida, abandono su búsqueda.

Como subproducto, esto:

library(xml2)
library(stringr)
library(plyr)
library(lubridate)

periodos <- expand.grid(anno = 2010:2017, mes = 1:12)
periodos$ind <- periodos$anno * 100 + periodos$mes
periodos <- periodos[periodos$ind < 201711,]
periodos <- paste(periodos$anno,
  str_pad(periodos$mes, 2, pad = "0"), sep = "_")

raw <- lapply(periodos, function(x){
  url <- paste0("http://www.eldiario.es/sitemap_contents_", x, ".xml")
  print(url)
  as_list(read_xml(url))
})

#df <- lapply(raw, function(y)
  ldply(y, function(x) as.data.frame(t(unlist(x)))))

res <- lapply(raw, unlist)
res <- lapply(res, function(x) t(matrix(x, 3, length(x) / 3)))
res <- data.frame(url = res[,1],
  time = res[,2], stringsAsFactors = FALSE)

res$time <- gsub("\\+.*", "", res$time)
res$time <- strptime(res$time,
  "%Y-%m-%dT%H:%M:%S")

res$titular <- gsub("_0_[0-9]*.html", "", res$url)
res$titular <- gsub(".*/", "", res$titular)
res$titular <- tolower(res$titular)

res$year <- year(res$time)
res$month <- month(res$time)

Igual le sirve a alguien para analizar palabras clave en titulares de ese u otro medio, su evolución por mes, etc.

Por qué soy escéptico con respecto al periodismo de datos

Lo dejé dicho hace un tiempo: en algún momento de esta charla expresé mis motivos.

Hay iniciativas muy encomiables que abogan por la apertura de datos. Convengo que la disponibilidad de datos de organizaciones púbicas y privadas facilitaría su fiscalización. En particular, la fiscalización que realiza la prensa: su acción sería más eficaz de no tener que jugar al gato y al ratón.

Pero hay motivos para el escepticismo. Hay motivos para pensar que la liberación de datos es condición hasta cierto punto necesaria pero en modo alguno suficiente para alcanzar esos loables objetivos. Existen dos contraejemplos rotundos. Se refieren a ámbitos en los que la información es pública, abundante e inmediata y que, además, tienen suma importancia periodística: economía y deportes.

Periodismo, metaperiodismo y bienes públicos

El metaperiodismo es lo que hacen los periodistas cuando escriben sobre su propio trabajo. Actualmente es un género de moda. En el metaperiodismo español abundan los lamentos: que si hay EREs aquí, que si han cerrado un periódico allá, que si no queremos trabajar gratis. Los metaperiodistas anglosajones no paran de hablar de paywalls y cómo monetizar contenidos en un mundo plagado de cacharrillos electrónicos y wifis. Además, suelen escribir artículos larguísimos, con un índice de complejidad de Kolmogorov de, prácticamente, uno (es decir, un tostón).