Números

Las cosquillas de los sondeos electorales

El ministro Wert parece un tipo majo y con sentido del humor que nos cae mal a todos porque lo hemos conocido en el sitio y el momento equivocados. Pero tiene un par de artículos (No le contéis a mi madre que hago encuestas políticas. Ella cree aún que soy pianista en un burdel y Mucho mejor que no haya encuestas) la mar de amenos y cuya lectura recomiendo encarecidamente sobre el tema que hoy nos ocupa.

Datos sobre los presupuestos del País Vasco

Quien haya seguido históricamente esta bitácora sabrá que, hablando en plata, cuando me enrollo es para meter caña. Es mi personalidad. Y no es cómodo soportarla.

Como hoy no tengo objeción alguna que hacer en el tema que quiero tratar, seré infinitamente breve. Solo digo: visitad esto.

Ley de Transparencia y anonimidad en ficheros de microdatos (II)

Escribí hace un tiempo sobre el asunto de la transparencia y la privacidad y quiero retomar el tema. Comienzo reafirmando mi preferencia por y compromiso con la causa de la transparencia en las administraciones públicas, fe de lo cual da esta misma bitácora. Pero la serendipia me ha llevado a tropezar con un ciertas circunstancias que han sembrado de matices mi inicial entusiasmo. No son insalvables, convengo. Pero me siento en la obligación de, cuando menos —y, pensando que pueden no ser de universal conocimiento— dejar constancia escrita de ellas.

Un pequeño ejercicio de agudeza visual

Consiste en echarle un vistazo a

y pensar si hay relación entre las variables x e y que aparecen en el gráfico.

Luego, darse cuenta de que corresponden al logaritmo decimal del tamaño de los municipios españoles de más de 1000 habitantes y su deuda por habitante.

Y, finalmente, examinar el título de esta entrada de blog, leerlo si procede, y extraer las conclusiones que uno considere oportunas.

¿Cómo votan los diputados?

Tras leer el otro día Visualizando la matriz de acuerdo legislativo, pensé que esta bitácora no podía quedarse atrás. Casi desisto. Pero cerrando ya casi el navegador vi que en la página de las votaciones del Congreso de los Diputados había dos enlaces aprovechables: en uno ponía XML y en el otro, “histórico”.

He aquí pues el código concomitante que fue apareciendo en mi sesión de RStudio:

library(XML)
library(reshape)
library(corrgram)
library(psych)

# descarga y manipulación de datos

dia.votacion <- function( n.votacion ){
    dir.create("tmp")
    url <- paste( "http://www.congreso.es/votaciones/OpenData?sesion=",
            n.votacion, "&completa=1&legislatura=10", sep = "" )
    download.file(url, destfile = "./tmp/votos.zip")
    try(unzip("./tmp/votos.zip", exdir = "./tmp"), TRUE)

    ficheros <- dir("./tmp", pattern = ".*xml", full.names = T )

    if ( length(ficheros ) == 0)
        return(NULL)

    res <- sapply(ficheros, function(fichero){
        datos <- xmlTreeParse(fichero)
        datos <- xmlToList(datos)$Votaciones

        if( is.null(datos) )
            return(NULL)

        datos <- as.data.frame(t(datos))
        datos <- as.data.frame(lapply( datos, unlist))
        },
        simplify = F
    )

    unlink( "./tmp", recursive = T)      # borra el directorio temporal

    res
}

res <- list()
for ( i in  1:54 ) res <- c( res, dia.votacion(i) )
# la 32, 33 está trucha
for ( i in 34:54 ) res <- c( res, dia.votacion(i) )

Con él se pueden bajar unas docenas de ficheros XML correspondientes a ciertos plenos de la X Legislatura, procesarlos mínimamente y guardarlos en la lista res. No estoy seguro de la profundidad histórica de los datos (aparentemente, sólo están disponibles los del 2012, aunque la X Legislatura arrancó, creo, antes). Además, falla la descarga de los ficheros correspondientes a las sesiones 32 y 33. Ese es el motivo por el que he tenido que recurrir a for, como los gañanes, en lugar de utiliza sapply, como era mi natural inclinación.

Periodismo, metaperiodismo y bienes públicos

El metaperiodismo es lo que hacen los periodistas cuando escriben sobre su propio trabajo. Actualmente es un género de moda. En el metaperiodismo español abundan los lamentos: que si hay EREs aquí, que si han cerrado un periódico allá, que si no queremos trabajar gratis. Los metaperiodistas anglosajones no paran de hablar de paywalls y cómo monetizar contenidos en un mundo plagado de cacharrillos electrónicos y wifis. Además, suelen escribir artículos larguísimos, con un índice de complejidad de Kolmogorov de, prácticamente, uno (es decir, un tostón).

Los principales problemas de España

Llevo unos días mostrando bastante poca diligencia en lo que a mi bitácora concierne. El calor con el que agosto ha maltratado los montes también ha contribuido a disipar mis ideas. También a enflaquecer la ya de por sí no muy robusta voluntad.

Y como todavía no ando recuperdo del todo, voy a aprovechar el estupendo trabajo previo de Gregorio Serrano (y véase también este otro relacionado con el anterior) para facilitar a mis lectores una tarea en la que como ciudadanos probos es probable que estén interesados y que, tal vez sin mi concurso, resultaría excesivamente enojosa.

Yendo por moras en el País Vasco

Publicaba el otro día El Correo cómo Las mujeres vascas son las más longevas de Europa. El artículo, realmente chirriante, mereció la réplica de Josu Mezo en Malaprensa.

Vaya por delante —y es lo menos importante de todo— que el titular es un puro abuso del lenguaje: las mujeres más longevas de Europa son, exactamente, las más longevas de Europa: algunas ancianitas centenarias que vivirán cada una en su casa. Incluso puede que alguna de ellas resida en el País Vasco. Pero concedo que el periodista quiso decir que las vascas son las mujeres con mayor esperanza de vida.

¿Estaría el BCE a ciegas?

David Cabo me hizo llegar el otro día este artículo, To what degree is the ECB flying blind? Y con buen criterio, porque, como veremos, toca temas ya conocidos de los lectores de estas páginas.

El artículo se resume en lo siguiente: si un día el Banco Central Europeo va a sumar a sus funciones la de la supervisión bancaria, va a encontrarse los dos problemas siguientes:

  • La confidencialidad de los datos
  • Sus niveles de desglose (y agregación)

Son dos problemas, además, interrelacionados. Por un lado, la supervisión bancaria exige un conocimiento íntimo de la cartera crediticia de las entidades. De hecho, son lo que el columnista llama tail risks, riesgos grandes que afectan a un número pequeño de préstamos, los que pueden tumbar al banco más pintado (véase esto y esto otro). Y estos riesgos en la cola quedan opacados tras las agregaciones.

Incendios en España

Quienes siguen de antiguo estas páginas recordarán que ya me ocupé de la cuestión de los incendios forestales hace un tiempo. Después han pasado cosas.

Por un lado, vía Alberto González Paje di con esta página, que utiliza datos del informe estadístico que publica el Ministerio de Medio Ambiente (y de otras cosas más, según la legislatura en cuestión).

También asistí hace un tiempo a una reunión de MediaLab Prado en la que Juan Elosúa nos contó cómo había conseguido acceso a la base de datos completa de incendios del Ministerio a fuerza de insistir y amparado por ciertas normas que garantizan el derecho de los ciudadanos a cualquier tipo de información de tipo medioambiental. Nos mostró, además, algunas visualizaciones que había hecho con ellos.

Fallecimientos y microdatos

Hace un tiempo, un amigo me dijo que si en verano tiende a crecer la tasa de fallecimientos. Como de eso no sé y no hay manera de preguntarle a Google cuándo se muere más la gente, acudí a quienes se encargan de recopilar ese tipo de datos. Y construí en relativamente poco rato un gráfico parecido a

que echaba por tierra su hipótesis.

Ahora quiero retomar el asunto aprovechando que he anunciado el paquete MicroDatosEs para indicar cómo se pueden crear los tres ficheros de metadatos necesarios para leer ficheros de microdatos. En concreto, ese tipo de ficheros de microdatos posicionales a los que tan aficionados son los institutos estadísticos españoles.

Vehículos eléctricos, ¿competitivos?

En McKinsey Quarterly di con este gráfico

que muestra hasta qué punto distintas tecnologías para impulsar vehículos de motor son o no competitivas en función del precio de la gasolina y de las baterías eléctricas. El eje izquierdo está expresado en dólares (1 euro, unos 1.23 dólares) por galón (3.78 litros).

El gráfico muestra cómo durante el 2011, en EE.UU., los vehículos híbridos están comenzando a competir en igualdad de condiciones con los vehículos tradicionales.

Tres ideas sobre datos abiertos

  1. Primero, colgar los datos en internet (aunque protegiendo al máximo el derecho a la privacidad).
  2. Segundo, hacerlo en formatos que sean útiles a los desarrolladores, que puedan ser leídos automáticamente a través de APIs.
  3. Tercero, educar a los innovadores y a los emprendedores acerca de la información disponible en la red a través de reuniones de desarrolladores, etc. para que la pongan en valor.

No son mías. Son de Todd Park y están recogidas en este artículo.