Datos Públicos

¿CDO de, p.e., España? Nah...

Dizque hace falta un CDO (chief data officer) de esa parte de España que es el estado español (aunque no sabemos si con autoridad solo dentro de la administración central o también en sus tentáculos semiautónomos) porque es una figura con creciente importancia en las empresas y con un rol muy definido en ellas.

Aquí voy a argumentar a la contra introduciendo un elemento de sospecha en esa aparentemente sencilla y automática traslación de roles entre la empresa privada y una cosa tan pantagruélica y aparatosa como la administración de un estado. Al menos, en lo que concierne a un CDO con poderes ejecutivos, es decir, con potestad para pedir que algo sea hecho y que, efectivamente, se haga.

Sobre la muy necesaria "Oficina del Dato"

Hace no tanto propuse la creación de un segundo INE axialmente (eje: la Castellana) simétrico al actualmente existente que elaborase un segundo censo, una segunda EPA, etc. por lo mucho que podríamos aprender acerca de la varianza (y los límites de la estadística) gracias a la simultánea publicación de parejas de cifras oficiales desiguales.

Pero alguien en el brazo largo de la palanca debió leerme sin advertir que iba de coña y me hizo caso. Así, en uno de los últimos BOEs, se nos comunica que:

¿Un "Instituto Nacional de Datos"?

Por motivos que algún día contaré, me está tocando leer una serie de documentos muy bizarros (en su acepción bárbara). De entre todos, el que se lleva la palma es el titulado Estrategia Española de I+D+I en Inteligencia Artificial, promovido por el ministerio del ramo y elaborado por la Secretaría General de Coordinación de Política Científica del Ministerio de Ciencia, Innovación y Universidades y el Grupo de Trabajo en Inteligencia Artificial GTIA.

Sobre lo de "publicar cuando ya no hace falta"

El otro día escribí (véase también esto):

Y mirad:

La lista de la vergüenza: los municipios con registros civiles no informatizados

[Nota: la lista pudiera contener errores. Se ha extraído de un sistema de la informatización o no de los registros civiles está deducida indirectamente.]

Se ha hablado últimamente de las discrepancias entre los datos de mortalidad del INE y de MoMo y creo que a estas alturas del partido ya sabemos casi todos que se deben a que el segundo sistema solo se nutre de datos de los registros civiles informatizados.

Más sobre el consumo alimentario mensual en los hogares españoles en R

He actualizado el repositorio que anuncié aquí, es decir, este, con una función adicional cuya razón de ser es la siguiente:

  • El ministerio de la cosa hace una encuesta sobre hábitos de compra y consumo de alimentos en España.
  • Luego proporciona dos vistas sobre los mismos datos:
  • Una, en forma de ficheros .xls con más profundidad histórica, datos más recientes y menos variables.
  • Otra, a través de un formulario web que devuelve páginas con tablas html que tiene menos profundidad histórica, tiene un retraso mayor de publicación pero alguna variable más (p.e., la penetración).

No preguntéis por qué. El bienestar de todos, que es la aspiración máxima de las instituciones públicas, se escribe derecho pero con renglones torcidos.

¿Deberían publicarse datos "en beta"?

Cuando vivía en Tailandia solía decir sobre la cultura corporativa de ese país que daba igual que las cosas se hiciesen bien o mal con tal de que se hiciesen tarde.

INE, CIS, ISCIII, etc., son un poco mejores: da igual que los datos se publiquen cuando ya no hacen falta con tal de que sean perfectos.

La pregunta es: ¿deberían publicarse datos imperfectos y con caveats pronto?

Nota: Eso ya se hace con indicadores importantes (véase esto).

¿En primavera? ¿En serio? Ni de coña

Hubo un tiempo en el que había que hacer caso a Aristóteles. Era lo que se esperaba de toda persona culta de la época. Así que, supongo, o te fiabas de lo que ven tus propios ojos o dabas por bueno que las mujeres tenían menos dientes.

Hoy nos piden que hagamos caso de nuestras autoridades sanitarias. Incluso, supongo, cuando dicen que el periodo más bajo de mortalidad en España ocurre en primavera (fuente).

Consumo alimentario mensual en los hogares españoles en R

R

[Coge aire: aquí arranca una frase muy larga] Simplemente, que he creado un repositorio en GitHub para extraer información de los ficheros excel y sus muchas pestañas que componen el sistema de difusión de datos estadísticos sobre consumo de alimentos y bebidas de las familias que realiza el ministerio de como se llame ahora.

La página de ministerio es esta; el repositorio, este.

Nota: hay mucha información muy buena que merece ser más conocida y mejor explotada.

Voy a demostrar (con la ayuda del INE) que Airbnb no existe

Tan vasto es el fenómeno Airbnb que malo será no haya dejado traza en las estadísticas oficiales. Que como oficiales, son verdad.

No podemos hacer caso a las estadísticas de ocupación hotelera del INE porque son de lo de que dicen: hoteles (y asimilados). Airbnb tiene que dejarse notar en otra parte.

¿Cuál? Frontur, la estadística de movimientos turísticos en frontera del INE. (Sin enlace: los enlaces del INE van y vienen). Las cifras de Frontur proceden de encuestas a turistas que salen de España a los que se somete a un cuestionario y cuyos resultados se extrapolan al total de la población extranjera que circulan por las fronteras. Así que, a diferencia de la estadística de ocupación hotelera (donde el INE solo adquiere información de turistas que pernoctan en hoteles), en esta encuesta son los turistas, independientemente de donde hayan dormido, los que dicen dónde lo hicieron. Y los resultados son estos:

Protección de los datos de los muertos

Me toca lidiar con datos relativos a muertos. No de muertos hace mil años, o quinientos, o de las guerras carlistas, sino, casi, casi con muertos de cadáver caliente y viuda con mocos.

He aquí la (¿aparente?) aporía.

Por un lado, sábese que la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos (en adelante, LOPD), no es de aplicación a las personas fallecidas. Pero, por otro:

  • La Agencia Tributaria ni ha publicado ni es fácil que publique las declaraciones de la renta del finado Sr. Botín.
  • Gmail no deja meter la nariz en los correos de finados.
  • El INE anonimiza los microdatos públicos de defunciones y excluye la causa de muerte.
  • El registro civil no publica las actas de nacimiento, matrimonio, defunción, etc. de los fallecidos.
  • Etc.

A lo más, la actual LOPD (veamos qué nos trae la siguiente) permite que los herederos comuniquen (pero en plan solicitud, no en plan ejercicio de un derecho) su interés en la eliminación de registros de sus familiares difuntos que obren en poder de empresas y organismos.

Simpson, de nuevo: ahora con la mortalidad

La tasa de mortalidad ha crecido sustancialmente en los dos últimos años (tres, de hecho: el INE no publica datos para el 2017 todavía, pero yo los he y fe doy):

Sin embargo, la tasa de mortalidad para cada cohorte de edad decrece. Muestro las de las cohortes de edades múltiplas de cinco:

De nuevo, Simpson.

Nota: las cifras vienen expresadas en defunciones por cada 1000 habitantes. Los datos salen de aquí.

Bus al norte, bus al sur

El día 2017-09-20 hubo gente que tomó el autobús en Madrid. Se montó en una determinada parada y la siguiente estaba situada o bien al norte o bien al sur de la anterior.

He contado, por horas, cuánta gente viajó en ese primer tramo, hacia el norte y quién lo hizo hacia el sur y he obtenido

que es —al contrario de los resultados presuntamente basados en datos pero, en el fondo ideológicamente sesgados con los que nos quieren tan frecuentemente vender motos— totalmente compatible con lo que todos los que nos movemos por Madrid sabemos.