Periodismo De Datos

Ya, pero ¿es viable un fact check descentralizado? Entonces, ¿qué hacer?

Me llegó ayer por Twitter lo siguiente:

Lo había publicado alguien que no conocía y retuiteado (por eso me alcanzó) una persona que sigo porque me consta que sabe de unos temas pero que ignoro en qué medida está puesta en los geopolíticos y la historia económica de las naciones del mundo.

Los datos llaman la atención: son interesantes y no obvios. Pero sabemos que la intersección de lo intersante, no obvio y cierto es prácticamente el conjunto vacío. Por lo que hay una alta probabilidad de que esos datos de presunto origen en el IMF y los muy adictos al Excel (y a meter la pata con él) Rienhart & Rogoff hayan sido embellecidos.

Enhorabuena a eldiario.es porque el análisis de el diario.es de los resultados de PISA está perfectamente alineado con la linea editorial de eldiario.es

Eso, ¡enhorabuena!

El estudio está aquí. Como no tiene enlace a datos y métodos, no puedo añadir más. Aplaudo en todo caso al autor que no preste atención a la significancia (véase en el artículo como los intervalos de confianza no cortan el cero en ningún punto) como al tamaño del efecto (aunque no justifique si es grande o pequeño). De nuevo, ¡enhorabuena!

Nota: Si alguien tiene críos en edad escolar y va a elegir una escuela u otra por lo que diga el señor Héctor Cebolla Boado como dice él, a vuelapluma, y luego se da cuenta de que se ha equivocado, que le proteste a él y no a otros.

Mis respuestas en una entrevista sobre "big data", periodismo de datos, etc.

Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas)

Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc. Solo recientemente han visto que es técnicamente posible estudiar sus datos a nivel de individuo (ciudadano, cliente, etc.). Eso ha implicado que el tamaño de los conjuntos de datos han crecido (ahí el cambio cuantitativo) en varios órdenes de magnitud (¿tres? ¿cuatro?). El cambio cualitativo concomitante es lo que llamamos big data.

El lenguaje de los gráficos en las Jornadas de Periodismo de Datos

Este sábado (2015-06-06), dentro de las Jornadas de Periodismo de Datos, hablaré sobre el lenguaje de los gráficos (véase el programa).

Para variar, nada de R y, aunque parezca lo contrario, nada de ggplot2. Ni tan siquiera respuestas a nada: solo preguntas que cada cual tendrá, si le place, que contestar. Y si se me hace caso, a la luz de la literatura relevante.

¿Por qué una cuestión tan abstracta? Porque sobran herramientas y recetarios sobre cómo hacer esto y aquello. Pero falta teoría. No seré yo quien pretenda enseñarla: ni siquiera la domino. Solo que soy consciente de que existe y mucha otra gente no.

Frecuencias naturales (y consumo de cerveza)

Las frecuencias naturales se utilizan como alternativa a los porcentajes para expresar probabilidades en lugar de, por ejemplo, porcentajes.

frecuencias_naturales

El gráfico anterior está extraído de este documento en el que sus autores argumentan que transmite más eficazmente la idea de probabilidad que los porcentajes desnudos tan habituales.

Entienden que es preferible decir que de cada 100 litros de cerveza vendidos en España, 20 se distribuyen en botella, 30 en lata y 30 en barril (¡ya sé que no suman 100!) que reescribir la información anterior en forma de porcentajes. Eso, sí, respetando una misma cantidad de partida y porsupuestísimo, no escribiendo, como aquí, que

Cualquier parecido con la realidad es pura coincidencia

@adolflow (en persona) viene hoy y me dice si lo he visto. ¿Qué cosa? Se refiere a lo que han publicado en El Español, España en Cifras. Lo miro por encima y encuentro

tasa_paro_municipal

¡Tasa de paro municipal! Lo siento, @adolflow, pero tal cosa no existe. No, no es que los datos sean secretos, no sean transparentes, no sean reutilizables. Es, simplemente, que no existe.

¿Peros?

No, no hay peros. Fijáte: hay 8000 municipios y la EPA se basa en una encuesta de unos 60000 hogares. ¡Echa cuentas!

Tres citas para los amantes del análisis de datos públicos

En estos días van a celebrarse tres eventos (de los que tengo noticia) relacionados con el análisis de datos. El primero es la Segunda Edición del Taller de Periodismo de Datos, en Madrid. Extraigo de su convocatoria lo siguiente:

Durante dos fines de semana largos (octubre 24-26 y diciembre 12-14 desarrollaremos proyectos para seguir la traza del dinero público con la ayuda de expertos tales como Ben Welsh (Los Angeles Times), Mariano Zafra (El País), Juan Elosúa (España en Llamas) y el equipo de periodismo de datos de El Confidencial.

Por qué soy escéptico con respecto al periodismo de datos

Lo dejé dicho hace un tiempo: en algún momento de esta charla expresé mis motivos.

Hay iniciativas muy encomiables que abogan por la apertura de datos. Convengo que la disponibilidad de datos de organizaciones púbicas y privadas facilitaría su fiscalización. En particular, la fiscalización que realiza la prensa: su acción sería más eficaz de no tener que jugar al gato y al ratón.

Pero hay motivos para el escepticismo. Hay motivos para pensar que la liberación de datos es condición hasta cierto punto necesaria pero en modo alguno suficiente para alcanzar esos loables objetivos. Existen dos contraejemplos rotundos. Se refieren a ámbitos en los que la información es pública, abundante e inmediata y que, además, tienen suma importancia periodística: economía y deportes.

Una macro para generar titulares sobre resultados de encuestas

Tropecé el otro día con un artículo en el NYT del que reproduzco (incluido el enlace) un párrafo:

Only 23 percent of respondents would now vote for the Popular Party, according to a telephone survey by Metroscopia, a pollster, and published by El País this month. That is near the lowest level since Mr. Rajoy came to power in November 2011. Meanwhile, 86 percent of those surveyed said that they did not trust Mr. Rajoy. The survey was based on interviews with 1,000 adults and has a margin of sampling error of plus or minus 3 percentage points.

Charla el día 27 en el Taller InnovaData de periodismo de datos

El lunes que viene, día 27 de mayo, impartiré un taller de… bueno, según el programa, de Principios básicos de estadística. En realidad quiero hablar principalmente de cómo evitar incurrir en el poco conocido error de tipo III —dar la respuesta correcta al problema equivocado— y, en particular, de tres de los fenómenos que nos conducen hacia él:

  • La inextricable **multidimensionalidad **de la realidad.
  • Nuestra atávica aversión a la incertidumbre.
  • El poco temor de Dios con que tomamos el nombre de la causalidad en vano.

La charla formará parte del taller con el que arrancará la competición de periodismo de datos InnovaData , coorganizada por BBVA y la Fundación Ciudadana Civio, que han tenido la gentileza de invitarme.

Más sobre variaciones insignificantes en estadísticas públicas

Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar.

Ahora leo en Significance cómo protesta Mark Fransham:

La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”. Me pareció un cambio pequeño en una estimación procedente de una encuesta. Así que, preguntándome por la significancia estadística, consulté la página de la Oficina Nacional de Estadística, (ONS). Que, de hecho, decía: “hay 2,53 millones de desempleados, 50.000 menos desde marzo a mayo de 2012 y desde la año anterior”.