Datos Abiertos

"Datathon for Social Good" de Telefónica

El Datathon for Social Good es una iniciativa de Telefónica para desarrollar aplicaciones analíticas que redunden en un bien social que está teniendo lugar estos días (¡aún hay tiempo para registrarse!).

Estos son los tres tipos de datos con los que se contará:

  • Recuento de personas en el área metropolitana de Londres durante 3 semanas, por sexo, edad y grupos para cada área en rango horario. Datos inferidos de cuántos están en su hogar, en trabajo o de visita.
  • Datos abiertos y geo-localizados de medios de transporte (autobús, metro, bicicleta). Admisiones en hospitales. Localizaciones de servicios de emergencia.
  • Datos no-localizados de Twitter con el hash-tag “London”. Cantidad representativa de tuits por hora.

Además, la competición será inaugurada con una conferencia a cargo del profesor Alex “Sandy” Pentland del MIT y Gavin Starks, director del Open Data Institute el martes 3 de Septiembre.

Quiero violar la ley y no sé cómo

He decidido violar la ley. Quiero demostrar al mundo y a mí mismo que no me es necesario transitar aborregadamente las sendas de los cobardes que tanto temen a Dios y al alguacilaje.

Por especificar, he optado por ponerme al margen de la ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público. He navegado hasta su artículo 11, titulado régimen sancionador y me he dispuesto a cometer las infracciones que estima más graves. A saber:

Demanda y uso de gobierno abierto en España

Traigo a la consideración de mis lectores el Estudio de demanda y uso de gobierno abierto en España que con fecha de primeros de este año ha realizado el Observatorio Nacional de las Telecomunicaciones y otros asuntos afines.

Aborda, dice, las siguientes cuestiones que copio:

  • La visión de la ciudadanía sobre la Administración Pública
  • La valoración que hace de los servicios públicos.
  • El uso de la Administración Electrónica.
  • La importancia que concede a las actuaciones en materia de transparencia, participación y colaboración.
  • Las demandas más relevantes sobre transparencia y participación.

Los principales resultados que dice encontrar son:

Anonimidad en ficheros de microdatos: un estudio en el contexto español

Estos días ha salido publicado un artículo mío, Microdata and k-anonymity: a quantitative approach in the Spanish context en la Revista BEIO. Trata de algunos temas de los que ya nos hemos ocupado antes en estas páginas: la anonimidad que cabe esperar en ficheros de microdatos. Y, en este caso, cuando hacen referencia a personas que viven en España.

Supongamos que se hacen públicos unos ficheros de datos en los que se han eliminado los identificadores (nombre, DNI, etc.) pero muestra ciertos datos de individuos (población de residencia, fecha de nacimiento, sexo, etc.) y otros datos (enfermedades padecidas, si ha estado en la cárcel, etc.). Es posible que haya invidiuos únicos en el fichero, es decir, que exista solo uno con esos atributos. Eso los hace reidentificables. Por ejemplo, es probable que en Ólvega (provincia de Soria) solo resida una señora nacida en una fecha determinada de los años cincuenta.

De los datos al conocimiento científico

Hoy he impartido la primera de mis clases dentro de la asignatura Data Analysis and Visualization for Environmental Magamement del Master in Environmental Management del Instituto de Empresa. El tema, From Data to Scientific Knowledge, todo en 80 minutos.

Así que dando por hecho que mis alumnos acabarán siendo intermediarios entre quienes fabrican ciencia medioambiental y el público general (o ciertas porciones de él), he presentado:

  1. La ciencia (experimental) como un proceso en el que las ideas se adaptan a los datos (obtenidos experimentalmente) más que como un conjunto de leyes y hechos fosilizados en libros.
  2. Un repaso de los caveats que afectan al proceso de creación científica: reproducibilidad (y la falta de ella), incentivos perversos, pseudociencia, comparaciones múltiples, sesgo de publicación, etc.
  3. Y, por el camino, algunas indicaciones sobre sobre datos, las licencias que gobiernan su uso, y los mecanismos para su difusión; el papel del software libre (y R, en particular), etc.

A continuación, el mapa mental del curso (creado con FreeMind):

Tesis de maestría: periodismo de datos, "big data" y "open data"

Tal vez a quienes siguen estas páginas les interese echar un vistazo a la tesis de maestría de Ángeles Mariño.

He aquí la introducción:

A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o exclusivamente en bases de datos y documentación en línea para crear una historia.

Cultura numérica, incultura numérica

Traigo hoy dos enlaces relacionados a mi bitácora.

No sé si conocéis OWNI, un Objet Web Non Identifié. Una de sus tres secciones prominentes se llama Cultures Numériques. No datos. No periodismo de datos. No OpenData. Sino culturas numéricas (supongo que el plural es un brindis a la ultracorrección política). Que tal sea el nombre invita a reflexiones que habrían de germinar por sí solas en las mentes de mis lectores.

El segundo tiene esta entradilla (con mi traducción):

R como herramienta de captura de datos

R

Seré breve hoy porque estoy desinspirado. Y también porque estoy trabajando en dos o tres proyectos importantes de los que se hablará por aquí pronto. Así que hoy me dedicaré a divulgar una presentación de Jeffrey Breen que tiene un título engañoso: Tapping the Data Deluge with R.

En realidad, es un repaso (y el código está disponible) de las posibilidades que ofrece R para capturar datos disponibles en línea en diversos repositorios: Banco Mundial, Yahoo, Twitter. Y no sólo eso sino también cómo conectarse a bases de datos, leer y procesar correos electrónicos, etc. En definitiva y si se me permite, amorrarse a fuentes de información diversas como paso previo al análisis.

Datos sobre los presupuestos del País Vasco

Quien haya seguido históricamente esta bitácora sabrá que, hablando en plata, cuando me enrollo es para meter caña. Es mi personalidad. Y no es cómodo soportarla.

Como hoy no tengo objeción alguna que hacer en el tema que quiero tratar, seré infinitamente breve. Solo digo: visitad esto.

Ley de Transparencia y anonimidad en ficheros de microdatos (II)

Escribí hace un tiempo sobre el asunto de la transparencia y la privacidad y quiero retomar el tema. Comienzo reafirmando mi preferencia por y compromiso con la causa de la transparencia en las administraciones públicas, fe de lo cual da esta misma bitácora. Pero la serendipia me ha llevado a tropezar con un ciertas circunstancias que han sembrado de matices mi inicial entusiasmo. No son insalvables, convengo. Pero me siento en la obligación de, cuando menos —y, pensando que pueden no ser de universal conocimiento— dejar constancia escrita de ellas.