Estadística

Capicúa

Capicúa es una de las trescientas cincuenta y pico palabras españolas que tienen su origen en el idioma catalán. Significa _cabeza _y cola. Y viene muy bien para etiquetar las dos entradas que, con esta, he realizado sobre las elecciones en Cataluña.

La que hice en su día, la cola, criticaba los métodos y ponía en cuestión los resultados de una encuesta electoral realizada por El Periódico (para más información, véase este enlace). Tal vez no sea casualidad que el software usado por los analistas en este caso sea SPSS.

No es país para "biplots"

No, parece que aún no estamos preparados para los biplots. En el curso Introduction to Infographics and Data Visualization de Alberto Cairo, nos pidieron sugierir mejoras y alternativas a este gráfico:

En el curso aparecieron sugerencias tales como esta,

esta, y otras similares que jugaban con los elementos gráficos habituales con más o menos arte, mejor o peor gusto en los colores, etc.

A mí se me ocurrió que los datos que aparecen en el gráfico original podía, con alguna salvedad y abusando del lenguaje, considerarse una especie de tabla de contingencia que incluía el número de personas que en cada país hacen uso de distintos tipos de servicios de internet. Y que entonces podría utilizar herramientas gráficas, tales como los biplots para visualizar los datos. El resultado fue

Liberado BioStatFLOSS, una colección de recursos libres para la bioestadística y la epidemiología

Quiero publicitar hoy BioStatFLOSS, una recopilación de software (libre, como el propio nombre indica) para Windows, especialmente indicado a la hora de realizar trabajos en el campo de la bioestadística y la epidemiología (pero que también se puede utilizar para la realización de estudios estadísticos más generales).

El software (que incluye R como programa estrella) ha sido portabilizado —si no existía ya una versión portable, es decir, que no necesite instalación— y se ha creado un lanzador común desde donde se puedan llamar a todos esos programas (véase la captura adjunta). Este lanzador está programado en Lazarus (Free Pascal) y, en breve, se liberará el código fuente.

Test de Student e importancia práctica: una solución (para su discusión)

El ejercicio que planteé hace unos días está extraido (casi literalmente) de aquí. Veamos cómo razona su autor en cada caso:

  • Caso 1: Existe una diferencia estadísticamente significativa entre los tratamientos. Pero carece de importancia práctica porque es improbable que supere los 3 mg/dl.
  • Caso 2: La diferencia es estadísticamente significativa y tiene importancia práctica a pesar de que el intervalo de confianza tiene una anchura de 20 mg/dl. Y es que un intervalo de confianza ancho no es necesariamente algo negativo: en este caso, por ejemplo, todos los puntos del rango tienen una misma interpretación. El nuevo tratamiento funciona, aunque sea imposible acotar con mucha precisión el rango de mejora.
  • Caso 3: La diferencia es estadísticamente significativa pero puede o no tener importancia práctica. El intervalo de confianza es demasiado ancho: puede ser de tan solo 2 mg/dl; pero también de 58 mg/dl. En este caso sería recomendable continuar investigando el tratamiento.
  • El caso 4 es fácil: no existe una diferencia significativa y, de haberla, es casi seguro que no tendría relevancia práctica.
  • Casos 5 y 6: La diferencia no es estadísticamente significativa. Sin embargo, esta diferencia no está lo suficientemente bien acotada como para descartar la posibilidad que puedan existir efectos de importancia práctica. De todos modos, en el caso 5 sería más razonable desestimar dicha posibilidad que en el 6, que es parecido al caso 3.

Test de Student e importancia práctica: un ejercicio

Esto de los test estadísticos junto con un cierto tipo de formación estadística conduce a automatismos que, a menudo, nos cuesta sacudirnos. Tendemos a aceptar y rechazar hipótesis con escaso juicio. Y una de las dimensiones de un estudio que se ignoran en ocasiones es el de la importancia práctica. Que es, tal vez, aquel por el que se propuso la prueba en primer lugar.

Así que voy a proponer a mis lectores un ejercicio (copiado de algún lugar que anunciaré otro día). Les voy a pedir que piensen si un determinado tratamiento contra, por ejemplo, el ácido úrico (en alguna parte del organismo) es efectivo o no. Supongamos que se sabe que una variación de alrededor de 2 ml/dl no tiene mayor relevancia médica en una persona, pero incrementos de 10 ml/dl y más comienzan a tener efectos importantes sobre la salud.

Balanzas fiscales y periodismo basado en datos

Dudo al escribir sobre el asunto porque el contexto del artículo que traigo a colación es ajeno al interés de esta bitácora. Pero me ha parecido un ejercicio inigualable de lo que debería ser el periodismo de datos.

El título es sugerente: ¿Cisne negro o pollo del montón? El déficit fiscal catalán en perspectiva. El tema del cisne negro ya ya sido mencionado aquí previamente, aunque mencionarlo en este contexto sólo es posible sometiendo el término a una cierta violencia léxica.

Las cosquillas de los sondeos electorales

El ministro Wert parece un tipo majo y con sentido del humor que nos cae mal a todos porque lo hemos conocido en el sitio y el momento equivocados. Pero tiene un par de artículos (No le contéis a mi madre que hago encuestas políticas. Ella cree aún que soy pianista en un burdel y Mucho mejor que no haya encuestas) la mar de amenos y cuya lectura recomiendo encarecidamente sobre el tema que hoy nos ocupa.

Ley de Transparencia y anonimidad en ficheros de microdatos (II)

Escribí hace un tiempo sobre el asunto de la transparencia y la privacidad y quiero retomar el tema. Comienzo reafirmando mi preferencia por y compromiso con la causa de la transparencia en las administraciones públicas, fe de lo cual da esta misma bitácora. Pero la serendipia me ha llevado a tropezar con un ciertas circunstancias que han sembrado de matices mi inicial entusiasmo. No son insalvables, convengo. Pero me siento en la obligación de, cuando menos —y, pensando que pueden no ser de universal conocimiento— dejar constancia escrita de ellas.

Un pequeño ejercicio de agudeza visual

Consiste en echarle un vistazo a

y pensar si hay relación entre las variables x e y que aparecen en el gráfico.

Luego, darse cuenta de que corresponden al logaritmo decimal del tamaño de los municipios españoles de más de 1000 habitantes y su deuda por habitante.

Y, finalmente, examinar el título de esta entrada de blog, leerlo si procede, y extraer las conclusiones que uno considere oportunas.

El Proyecto Internacional de Alfabetización Estadística

Sí, existe un Proyecto Internacional de Alfabetización Estadística (oficialmente, International Statistical Literacy Project). Tiene como objetivo

promover la alfabetización estadística en el mundo entre los jóvenes y los adultos y en todas las dimensiones de su actividad.

Y, para ello,

proporciona un repositorio en línea de recursos y noticias relacionadas con la alfabetización estadística y promueve actividades internacionales para incrementar la visibilidad de de la estadística.

Siempre me ha llamado la atención cómo en los países anglosajones las organizaciones profesionales estadísticas —la ASA, la RSS, etc.— invierten decisivamente en eso de la alfabetización estadística a través de campañas dirigidas a estudiantes, periodistas, etc.

Las dos preguntas fundamentales de la teoría de los valores extremos

En muchos ocasiones es necesario realizar estimaciones sobre el máximo de una serie de valores aleatorios.

Uno de los casos más conocidos que me vienen a la mente es el llamado problema de los tanques alemanes. Durante la II Guerra Mundial, los aliados, para estimar el ritmo de producción de tanques del enemigo, recogían el número de serie de los que destruían o capturaban. Gracias a esta muestra potencialmente aleatoria, podían realizar estimaciones del máximo de la serie y, de ahí, del número de unidades construidas durante cierto intervalo de tiempo. Pero este es un problema trivial comparado con el de estimar el máximo nivel que puede alcanzar una riada o la carga que puede llegar a soportar un puente en los próximos cien o mil años.

¿Cómo votan los diputados?

Tras leer el otro día Visualizando la matriz de acuerdo legislativo, pensé que esta bitácora no podía quedarse atrás. Casi desisto. Pero cerrando ya casi el navegador vi que en la página de las votaciones del Congreso de los Diputados había dos enlaces aprovechables: en uno ponía XML y en el otro, “histórico”.

He aquí pues el código concomitante que fue apareciendo en mi sesión de RStudio:

library(XML)
library(reshape)
library(corrgram)
library(psych)

# descarga y manipulación de datos

dia.votacion <- function( n.votacion ){
    dir.create("tmp")
    url <- paste( "http://www.congreso.es/votaciones/OpenData?sesion=",
            n.votacion, "&completa=1&legislatura=10", sep = "" )
    download.file(url, destfile = "./tmp/votos.zip")
    try(unzip("./tmp/votos.zip", exdir = "./tmp"), TRUE)

    ficheros <- dir("./tmp", pattern = ".*xml", full.names = T )

    if ( length(ficheros ) == 0)
        return(NULL)

    res <- sapply(ficheros, function(fichero){
        datos <- xmlTreeParse(fichero)
        datos <- xmlToList(datos)$Votaciones

        if( is.null(datos) )
            return(NULL)

        datos <- as.data.frame(t(datos))
        datos <- as.data.frame(lapply( datos, unlist))
        },
        simplify = F
    )

    unlink( "./tmp", recursive = T)      # borra el directorio temporal

    res
}

res <- list()
for ( i in  1:54 ) res <- c( res, dia.votacion(i) )
# la 32, 33 está trucha
for ( i in 34:54 ) res <- c( res, dia.votacion(i) )

Con él se pueden bajar unas docenas de ficheros XML correspondientes a ciertos plenos de la X Legislatura, procesarlos mínimamente y guardarlos en la lista res. No estoy seguro de la profundidad histórica de los datos (aparentemente, sólo están disponibles los del 2012, aunque la X Legislatura arrancó, creo, antes). Además, falla la descarga de los ficheros correspondientes a las sesiones 32 y 33. Ese es el motivo por el que he tenido que recurrir a for, como los gañanes, en lugar de utiliza sapply, como era mi natural inclinación.

Gosset, el remuestreador de la infinita paciencia

He estado buscando estos días material relacionado con algo que se ha dado en llamar estadística moderna, que enfatiza el cálculo (asistido por ordenador) y la simulación a la hora de afrontar problemas estadísticos. La estadística clásica, por el contrario, tiende a hacer uso de hipótesis acerca de la distribución de los datos y a utilizar mecanismos más analíticos. La estadística moderna es moderna porque los ordenadores que la hicieron posible llegaron antes que la teoría subyacente a la teoría clásica.