Datos Abiertos

Si participase en MadData...

El otro día ayudé a divulgar por aquí MadData, el datatón de datos abiertos del ayuntamiento de Madrid. Algunos me habéis preguntado si participaré. Pero estoy lejos (y, muy, muy ocupado).

Eso sí, os voy a contar dónde me gustaría meter la cuchara. En datos del ayuntamiento de Madrid, claro. Pero no los abiertos, ni los públicos, ni los conocidos. Sino los otros.

Os pongo en precedentes. Sabréis —si habéis seguido estas páginas— que soy el copropietario de MartinaCocina, un local que no sé si clasificar como cafetería o restaurante, en el centro de Madrid. En él hemos celebrado, incluso, algún evento del interés de mis lectores.

MadData: datatón de datos abiertos

Copio (adaptándolo) de aquí:

_everis y MadridEmprende organizan el primer Open Datathon de Madrid.

La competición consiste en crear soluciones innovadoras a partir del uso de datos abiertos. MADdata pondrá a disposición de cada participante datos de la ciudad de Madrid, procedentes del portal de datos abiertos del Ayuntamiento, de servicios públicos, de transporte y movilidad y de redes sociales._

maddata

La inscripción está abierta hasta el 25 de julio de 2014.

Finalmente, he aquí una frase del anuncio que me hace mucha gracia:

Por qué soy escéptico con respecto al periodismo de datos

Lo dejé dicho hace un tiempo: en algún momento de esta charla expresé mis motivos.

Hay iniciativas muy encomiables que abogan por la apertura de datos. Convengo que la disponibilidad de datos de organizaciones púbicas y privadas facilitaría su fiscalización. En particular, la fiscalización que realiza la prensa: su acción sería más eficaz de no tener que jugar al gato y al ratón.

Pero hay motivos para el escepticismo. Hay motivos para pensar que la liberación de datos es condición hasta cierto punto necesaria pero en modo alguno suficiente para alcanzar esos loables objetivos. Existen dos contraejemplos rotundos. Se refieren a ámbitos en los que la información es pública, abundante e inmediata y que, además, tienen suma importancia periodística: economía y deportes.

Los efectos de la transparencia

Hace unos días se aprobó la Ley de Transparencia. Si en esta entrada me limitase a aplaudir este hecho, pensarían con razón mis lectores que durante estos días de silencio he sido abducido por alguna criatura extraterrestre y sometido a un lavado de cerebro que borrase de él todo atisbo de subordinación adversativa.

Pues he aquí que acabo de terminar de leer un artículo muy oportuno, Accounting for the Effects of Accountability de J. Lerner y P. Tetlock que estudia desde la óptica de la sicología y la sociología los efectos de la transparencia (que es y no es lo mismo que accountability, pero a la que aplica igualmente) en los sujetos sometidos a ella.

"Datathon for Social Good" de Telefónica

El Datathon for Social Good es una iniciativa de Telefónica para desarrollar aplicaciones analíticas que redunden en un bien social que está teniendo lugar estos días (¡aún hay tiempo para registrarse!).

Estos son los tres tipos de datos con los que se contará:

  • Recuento de personas en el área metropolitana de Londres durante 3 semanas, por sexo, edad y grupos para cada área en rango horario. Datos inferidos de cuántos están en su hogar, en trabajo o de visita.
  • Datos abiertos y geo-localizados de medios de transporte (autobús, metro, bicicleta). Admisiones en hospitales. Localizaciones de servicios de emergencia.
  • Datos no-localizados de Twitter con el hash-tag “London”. Cantidad representativa de tuits por hora.

Además, la competición será inaugurada con una conferencia a cargo del profesor Alex “Sandy” Pentland del MIT y Gavin Starks, director del Open Data Institute el martes 3 de Septiembre.

Quiero violar la ley y no sé cómo

He decidido violar la ley. Quiero demostrar al mundo y a mí mismo que no me es necesario transitar aborregadamente las sendas de los cobardes que tanto temen a Dios y al alguacilaje.

Por especificar, he optado por ponerme al margen de la ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público. He navegado hasta su artículo 11, titulado régimen sancionador y me he dispuesto a cometer las infracciones que estima más graves. A saber:

Demanda y uso de gobierno abierto en España

Traigo a la consideración de mis lectores el Estudio de demanda y uso de gobierno abierto en España que con fecha de primeros de este año ha realizado el Observatorio Nacional de las Telecomunicaciones y otros asuntos afines.

Aborda, dice, las siguientes cuestiones que copio:

  • La visión de la ciudadanía sobre la Administración Pública
  • La valoración que hace de los servicios públicos.
  • El uso de la Administración Electrónica.
  • La importancia que concede a las actuaciones en materia de transparencia, participación y colaboración.
  • Las demandas más relevantes sobre transparencia y participación.

Los principales resultados que dice encontrar son:

Anonimidad en ficheros de microdatos: un estudio en el contexto español

Estos días ha salido publicado un artículo mío, Microdata and k-anonymity: a quantitative approach in the Spanish context en la Revista BEIO. Trata de algunos temas de los que ya nos hemos ocupado antes en estas páginas: la anonimidad que cabe esperar en ficheros de microdatos. Y, en este caso, cuando hacen referencia a personas que viven en España.

Supongamos que se hacen públicos unos ficheros de datos en los que se han eliminado los identificadores (nombre, DNI, etc.) pero muestra ciertos datos de individuos (población de residencia, fecha de nacimiento, sexo, etc.) y otros datos (enfermedades padecidas, si ha estado en la cárcel, etc.). Es posible que haya invidiuos únicos en el fichero, es decir, que exista solo uno con esos atributos. Eso los hace reidentificables. Por ejemplo, es probable que en Ólvega (provincia de Soria) solo resida una señora nacida en una fecha determinada de los años cincuenta.

De los datos al conocimiento científico

Hoy he impartido la primera de mis clases dentro de la asignatura Data Analysis and Visualization for Environmental Magamement del Master in Environmental Management del Instituto de Empresa. El tema, From Data to Scientific Knowledge, todo en 80 minutos.

Así que dando por hecho que mis alumnos acabarán siendo intermediarios entre quienes fabrican ciencia medioambiental y el público general (o ciertas porciones de él), he presentado:

  1. La ciencia (experimental) como un proceso en el que las ideas se adaptan a los datos (obtenidos experimentalmente) más que como un conjunto de leyes y hechos fosilizados en libros.
  2. Un repaso de los caveats que afectan al proceso de creación científica: reproducibilidad (y la falta de ella), incentivos perversos, pseudociencia, comparaciones múltiples, sesgo de publicación, etc.
  3. Y, por el camino, algunas indicaciones sobre sobre datos, las licencias que gobiernan su uso, y los mecanismos para su difusión; el papel del software libre (y R, en particular), etc.

A continuación, el mapa mental del curso (creado con FreeMind):

Tesis de maestría: periodismo de datos, "big data" y "open data"

Tal vez a quienes siguen estas páginas les interese echar un vistazo a la tesis de maestría de Ángeles Mariño.

He aquí la introducción:

A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o exclusivamente en bases de datos y documentación en línea para crear una historia.

Cultura numérica, incultura numérica

Traigo hoy dos enlaces relacionados a mi bitácora.

No sé si conocéis OWNI, un Objet Web Non Identifié. Una de sus tres secciones prominentes se llama Cultures Numériques. No datos. No periodismo de datos. No OpenData. Sino culturas numéricas (supongo que el plural es un brindis a la ultracorrección política). Que tal sea el nombre invita a reflexiones que habrían de germinar por sí solas en las mentes de mis lectores.

El segundo tiene esta entradilla (con mi traducción):

R como herramienta de captura de datos

R

Seré breve hoy porque estoy desinspirado. Y también porque estoy trabajando en dos o tres proyectos importantes de los que se hablará por aquí pronto. Así que hoy me dedicaré a divulgar una presentación de Jeffrey Breen que tiene un título engañoso: Tapping the Data Deluge with R.

En realidad, es un repaso (y el código está disponible) de las posibilidades que ofrece R para capturar datos disponibles en línea en diversos repositorios: Banco Mundial, Yahoo, Twitter. Y no sólo eso sino también cómo conectarse a bases de datos, leer y procesar correos electrónicos, etc. En definitiva y si se me permite, amorrarse a fuentes de información diversas como paso previo al análisis.

Datos sobre los presupuestos del País Vasco

Quien haya seguido históricamente esta bitácora sabrá que, hablando en plata, cuando me enrollo es para meter caña. Es mi personalidad. Y no es cómodo soportarla.

Como hoy no tengo objeción alguna que hacer en el tema que quiero tratar, seré infinitamente breve. Solo digo: visitad esto.