Datos Abiertos

¿CDO de, p.e., España? Nah...

Dizque hace falta un CDO (chief data officer) de esa parte de España que es el estado español (aunque no sabemos si con autoridad solo dentro de la administración central o también en sus tentáculos semiautónomos) porque es una figura con creciente importancia en las empresas y con un rol muy definido en ellas.

Aquí voy a argumentar a la contra introduciendo un elemento de sospecha en esa aparentemente sencilla y automática traslación de roles entre la empresa privada y una cosa tan pantagruélica y aparatosa como la administración de un estado. Al menos, en lo que concierne a un CDO con poderes ejecutivos, es decir, con potestad para pedir que algo sea hecho y que, efectivamente, se haga.

Sobre la muy necesaria "Oficina del Dato"

Hace no tanto propuse la creación de un segundo INE axialmente (eje: la Castellana) simétrico al actualmente existente que elaborase un segundo censo, una segunda EPA, etc. por lo mucho que podríamos aprender acerca de la varianza (y los límites de la estadística) gracias a la simultánea publicación de parejas de cifras oficiales desiguales.

Pero alguien en el brazo largo de la palanca debió leerme sin advertir que iba de coña y me hizo caso. Así, en uno de los últimos BOEs, se nos comunica que:

Sobre lo de "publicar cuando ya no hace falta"

El otro día escribí (véase también esto):

Y mirad:

La lista de la vergüenza: los municipios con registros civiles no informatizados

[Nota: la lista pudiera contener errores. Se ha extraído de un sistema de la informatización o no de los registros civiles está deducida indirectamente.]

Se ha hablado últimamente de las discrepancias entre los datos de mortalidad del INE y de MoMo y creo que a estas alturas del partido ya sabemos casi todos que se deben a que el segundo sistema solo se nutre de datos de los registros civiles informatizados.

Más sobre el consumo alimentario mensual en los hogares españoles en R

He actualizado el repositorio que anuncié aquí, es decir, este, con una función adicional cuya razón de ser es la siguiente:

  • El ministerio de la cosa hace una encuesta sobre hábitos de compra y consumo de alimentos en España.
  • Luego proporciona dos vistas sobre los mismos datos:
  • Una, en forma de ficheros .xls con más profundidad histórica, datos más recientes y menos variables.
  • Otra, a través de un formulario web que devuelve páginas con tablas html que tiene menos profundidad histórica, tiene un retraso mayor de publicación pero alguna variable más (p.e., la penetración).

No preguntéis por qué. El bienestar de todos, que es la aspiración máxima de las instituciones públicas, se escribe derecho pero con renglones torcidos.

Consumo alimentario mensual en los hogares españoles en R

R

[Coge aire: aquí arranca una frase muy larga] Simplemente, que he creado un repositorio en GitHub para extraer información de los ficheros excel y sus muchas pestañas que componen el sistema de difusión de datos estadísticos sobre consumo de alimentos y bebidas de las familias que realiza el ministerio de como se llame ahora.

La página de ministerio es esta; el repositorio, este.

Nota: hay mucha información muy buena que merece ser más conocida y mejor explotada.

0.7% NYC - MAD .3%

Ayer leí este artículo en el que se denuncia cómo en Nueva York, donde tan elevados son los alquileres, apenas se construyen nuevos apartamentos. En 2017, al parecer, su número creció apenas el 0.7%.

Pero, ¿a quién le importa Nueva York? Veamos qué pasa en Madrid. Gracias al buen hacer de su ayuntamiento, tenemos datos que resumo aquí:

[table id=2 /]

[Nota: aparentemente, aquí iba una tabla que se perdió en la última migración del blog.]

Más sobre la anonimidad y reidentificación en ficheros de microdatos

Ha tenido cierta repercusión durante el verano el articulo Estimating the success of re-identifications in incomplete datasets using generative models, del que se han publicado resúmenes tales como Bastan tres datos para identificar a cualquiera en una base anónima. Cosa sobradamene conocida desde hace la tira.

De hecho, se ha publicado esta herramienta para conocer tu riesgo de ser reidentificado, caso de que vivas en EEUU o el RU.

¿Y si vives en España? Siempre puedes leer esto, de lo que ya hablé (y resumí) aquí.

Disponible el fichero de datos abiertos más goloso de ambas castillas: las rutas de Bicimad

R

Albricias, el ayuntamiento de Madrid ha liberado el fichero más goloso de ambas castillas: el de las rutas de usuarios de Bicimad, viaje a viaje, con su estación de origen, estación de destino, tiempo de recorrido, etc. Tiempo os falta para echarle un vistazo y hacer cosas chulas con él.

Los datos están aquí.

Se puede leer con código no muy distinto de este:

library(RJSONIO)

raw <- readLines("201808_Usage_Bicimad.json")
dat <- iconv(raw, "latin1", "utf8")
dat <- sapply(dat, fromJSON)

A bote pronto, se me ocurren algunas cosas que se pueden hacer con esos datos:

Protección de los datos de los muertos

Me toca lidiar con datos relativos a muertos. No de muertos hace mil años, o quinientos, o de las guerras carlistas, sino, casi, casi con muertos de cadáver caliente y viuda con mocos.

He aquí la (¿aparente?) aporía.

Por un lado, sábese que la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos (en adelante, LOPD), no es de aplicación a las personas fallecidas. Pero, por otro:

  • La Agencia Tributaria ni ha publicado ni es fácil que publique las declaraciones de la renta del finado Sr. Botín.
  • Gmail no deja meter la nariz en los correos de finados.
  • El INE anonimiza los microdatos públicos de defunciones y excluye la causa de muerte.
  • El registro civil no publica las actas de nacimiento, matrimonio, defunción, etc. de los fallecidos.
  • Etc.

A lo más, la actual LOPD (veamos qué nos trae la siguiente) permite que los herederos comuniquen (pero en plan solicitud, no en plan ejercicio de un derecho) su interés en la eliminación de registros de sus familiares difuntos que obren en poder de empresas y organismos.

Vaya, vaya, vaya... (Y, ¿hay motivo para retractar?)

Hablé de los suicidios en España y de lo sospechosos que resultaban los números del INE. Ni harto de vino, decía aquí y aquí.

Ahora, resulta que alguien ha echado un vistazo en profundidad al asunto. Y eso, que las cifras del INE son bazofia.

Y ahora, ¿qué se hará de todos esos artículos que relacionaban crisis con tasas de suicidio (como, p.e., este)? ¿Deberían retractarlos sus autores?

La AEMET ha muerto, ¡larga vida a la NOAA!

El otro día, buscando datos meteorológicos (históricos, por día) de Madrid, reconstaté que la AEMET cobra por el acceso. Están en su derecho. Igual que lo están los que no se duchan y huelen a perrete chico en el metro.

Pero los mismos datos se pueden bajar gratis de la NOAA.

Así, a la AEMET, que le den; que haga lo que le venga en gana en su soledad detrás de esa pasarela de pago que tan innecesario es atravesar.

Me siento mal porque han sido muy majos conmigo y ahora no sé qué hacer con lo que me han mandado

Recibo esto en mi correo electrónico:

RESOLUCIÓN DE LA GERENTE DE LA EMPRESA MUNICIPAL DE LA VIVIENDA Y SUELO DE MADRID S.A. POR LA QUE SE ADMITE PARCIALMENTE LA SOLICITUD DE ACCESO A LA INFORMACIÓN PÚBLICA EN EL EXPEDIENTE NÚM. 213/2017/00294

ANTECEDENTES DE HECHO

PRIMERO.- Con fecha de entrada en el registro del Ayuntamiento de Madrid 16 de abril de 2017 y núm. de anotación 2017/0367535, se ha recibido solicitud formulada al amparo de la Ley 19/2013, de 9 de diciembre, de transparencia, acceso a la información pública y buen gobierno (LTAIP en adelante) por D Carlos Javier Gil Bellosta en la que solicita: