A raíz de mi entrada de ayer, se han iniciado en mi derredor algunas discusiones sobre cuál podría ser el formato indicado para diseminar microdatos. En particular, los del INE. Y el asunto no es trivial.
Hasta la fecha, el procedimiento habitual era utilizar ficheros de ancho fijo con códigos, típicamente numéricos (p.e., 1-hombre; 6-mujer). Existían diccionarios asociados con pares código-descripción que se distribuían en hojas de cálculo adjuntas; es decir, metadatos.
Aquellos que tengáis la suerte de estar en Barcelona a finales de mes, la tendréis por partida doble: la edición de APIdays Mediterránea de este año tendrá lugar ahí los días 29 y 30 de mayo.
El año pasado participé en la edición de Madrid. Este año no va a poder ser. Pero si tenéis ocasión, os recomendaría muy particularmente las charlas de
Alberto González Paje sobre web scraping, Xavier Badosa, el autor de JSON-stat, sobre la diseminación de información estadística oficial y, un poco más alejados del asunto central de este blog, las de
Igual exagero en el encabezamiento: PC-Axis, a pesar de sus defectos, a pesar de su antigüedad, etc. goza de excesiva buena salud. Debió haber pasado a mejor vida hace tiempo pero, como pasa con esas cosas, se ha enquistado.
Como alternativa a la altura de los tiempos, está JSON-stat, concebido por Xavier Badosa y que nadie como él describe:
Los principales formatos para el intercambio de datos y metadatos estadísticos están basados en XML: normalmente son complicados y prolijos.