Un pequeño ejercicio de agudeza visual

Consiste en echarle un vistazo a y pensar si hay relación entre las variables x e y que aparecen en el gráfico. Luego, darse cuenta de que corresponden al logaritmo decimal del tamaño de los municipios españoles de más de 1000 habitantes y su deuda por habitante. Y, finalmente, examinar el título de esta entrada de blog, leerlo si procede, y extraer las conclusiones que uno considere oportunas.

3 de octubre de 2012 · Carlos J. Gil Bellosta

El Proyecto Internacional de Alfabetización Estadística

Sí, existe un Proyecto Internacional de Alfabetización Estadística (oficialmente, International Statistical Literacy Project). Tiene como objetivo promover la alfabetización estadística en el mundo entre los jóvenes y los adultos y en todas las dimensiones de su actividad. Y, para ello, proporciona un repositorio en línea de recursos y noticias relacionadas con la alfabetización estadística y promueve actividades internacionales para incrementar la visibilidad de la estadística. Siempre me ha llamado la atención cómo en los países anglosajones las organizaciones profesionales estadísticas —la ASA, la RSS, etc.— invierten decisivamente en eso de la alfabetización estadística a través de campañas dirigidas a estudiantes, periodistas, etc. ...

1 de octubre de 2012 · Carlos J. Gil Bellosta

Las dos preguntas fundamentales de la teoría de los valores extremos

En muchos ocasiones es necesario realizar estimaciones sobre el máximo de una serie de valores aleatorios. Uno de los casos más conocidos que me vienen a la mente es el llamado problema de los tanques alemanes. Durante la II Guerra Mundial, los aliados, para estimar el ritmo de producción de tanques del enemigo, recogían el número de serie de los que destruían o capturaban. Gracias a esta muestra potencialmente aleatoria, podían realizar estimaciones del máximo de la serie y, de ahí, del número de unidades construidas durante cierto intervalo de tiempo. Pero este es un problema trivial comparado con el de estimar el máximo nivel que puede alcanzar una riada o la carga que puede llegar a soportar un puente en los próximos cien o mil años. ...

21 de septiembre de 2012 · Carlos J. Gil Bellosta

¿Cómo votan los diputados?

Tras leer el otro día Visualizando la matriz de acuerdo legislativo, pensé que esta bitácora no podía quedarse atrás. Casi desisto. Pero cerrando ya casi el navegador vi que en la página de las votaciones del Congreso de los Diputados había dos enlaces aprovechables: en uno ponía XML y en el otro, “histórico”. He aquí pues el código concomitante que fue apareciendo en mi sesión de RStudio: library(XML) library(reshape) library(corrgram) library(psych) # descarga y manipulación de datos dia.votacion <- function( n.votacion ){ dir.create("tmp") url <- paste( "http://www.congreso.es/votaciones/OpenData?sesion=", n.votacion, "&completa=1&legislatura=10", sep = "" ) download.file(url, destfile = "./tmp/votos.zip") try(unzip("./tmp/votos.zip", exdir = "./tmp"), TRUE) ficheros <- dir("./tmp", pattern = ".*xml", full.names = T ) if ( length(ficheros ) == 0) return(NULL) res <- sapply(ficheros, function(fichero){ datos <- xmlTreeParse(fichero) datos <- xmlToList(datos)$Votaciones if( is.null(datos) ) return(NULL) datos <- as.data.frame(t(datos)) datos <- as.data.frame(lapply( datos, unlist)) }, simplify = F ) unlink( "./tmp", recursive = T) # borra el directorio temporal res } res <- list() for ( i in 1:54 ) res <- c( res, dia.votacion(i) ) # la 32, 33 está trucha for ( i in 34:54 ) res <- c( res, dia.votacion(i) ) Con él se pueden bajar unas docenas de ficheros XML correspondientes a ciertos plenos de la X Legislatura, procesarlos mínimamente y guardarlos en la lista res. No estoy seguro de la profundidad histórica de los datos (aparentemente,solo están disponibles los del 2012, aunque la X Legislatura arrancó, creo, antes). Además, falla la descarga de los ficheros correspondientes a las sesiones 32 y 33. Ese es el motivo por el que he tenido que recurrir a for, como los gañanes, en lugar de utiliza sapply, como era mi natural inclinación. ...

20 de septiembre de 2012 · Carlos J. Gil Bellosta

Gosset, el remuestreador de la infinita paciencia

He estado buscando estos días material relacionado con algo que se ha dado en llamar estadística moderna, que enfatiza el cálculo (asistido por ordenador) y la simulación a la hora de afrontar problemas estadísticos. La estadística clásica, por el contrario, tiende a hacer uso de hipótesis acerca de la distribución de los datos y a utilizar mecanismos más analíticos. La estadística moderna es moderna porque los ordenadores que la hicieron posible llegaron antes que la teoría subyacente a la teoría clásica. ...

13 de septiembre de 2012 · Carlos J. Gil Bellosta

Limpieza de cartera: tres artículos

Estoy limpiando mi cartera y antes de mandar unos cuantos legajos al archivador (o al contenedor de reciclaje) quiero dejar nota de sus contenidos para referencia mía y, quién sabe, si inspiración de otros. El primer artículo es Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Tiene esencialmente dos partes. La primera analiza críticamente el método de clasificación bayesiano ingenuo (naive Bayes) en el contexto de la minería de textos identificando una serie de deficiencias. En la segunda parte, los autores proponen una serie de modificaciones ad hoc para crear un algoritmo de clasificación mejorado. ...

6 de septiembre de 2012 · Carlos J. Gil Bellosta

Los principales problemas de España

Llevo unos días mostrando bastante poca diligencia en lo que a mi bitácora concierne. El calor con el que agosto ha maltratado los montes también ha contribuido a disipar mis ideas. También a enflaquecer la ya de por sí no muy robusta voluntad. Y como todavía no ando recuperado del todo, voy a aprovechar el estupendo trabajo previo de Gregorio Serrano (y véase también este otro relacionado con el anterior) para facilitar a mis lectores una tarea en la que como ciudadanos probos es probable que estén interesados y que, tal vez sin mi concurso, resultaría excesivamente enojosa. ...

5 de septiembre de 2012 · Carlos J. Gil Bellosta

¿En qué está pensando el ministro Wert?

Eso he visto que se preguntaban algunos en Twitter estos días. Lo particular del caso es que, a diferencia de muchos otros ministros que tenemos y hemos tenido (salvo algunas notables excepciones, como Borrell), el ministro Wert tiene una relativamente extensa colección de artículos publicados. De entre todos ellos, destaco el ahora relevantísimo La sociedad civil ante el gasto público escrito por él hace ya once años, mucho antes de que pudiese siquiera imaginar encontrarse algún día en su actual coyuntura. En este trabajo se plantea con datos del CIS en mano, ...

31 de agosto de 2012 · Carlos J. Gil Bellosta

Yendo por moras en el País Vasco

Publicaba el otro día El Correo cómo Las mujeres vascas son las más longevas de Europa. El artículo, realmente chirriante, mereció la réplica de Josu Mezo en Malaprensa. Vaya por delante —y es lo menos importante de todo— que el titular es un puro abuso del lenguaje: las mujeres más longevas de Europa son, exactamente, las más longevas de Europa: algunas ancianitas centenarias que vivirán cada una en su casa. Incluso puede que alguna de ellas resida en el País Vasco. Pero concedo que el periodista quiso decir que las vascas son las mujeres con mayor esperanza de vida. ...

30 de agosto de 2012 · Carlos J. Gil Bellosta

¿Estaría el BCE a ciegas?

David Cabo me hizo llegar el otro día este artículo, To what degree is the ECB flying blind? Y con buen criterio, porque, como veremos, toca temas ya conocidos de los lectores de estas páginas. El artículo se resume en lo siguiente: si un día el Banco Central Europeo va a sumar a sus funciones la de la supervisión bancaria, va a encontrarse los dos problemas siguientes: La confidencialidad de los datos Sus niveles de desglose (y agregación) Son dos problemas, además, interrelacionados. Por un lado, la supervisión bancaria exige un conocimiento íntimo de la cartera crediticia de las entidades. De hecho, son lo que el columnista llama tail risks, riesgos grandes que afectan a un número pequeño de préstamos, los que pueden tumbar al banco más pintado (véase esto y esto otro). Y estos riesgos en la cola quedan opacados tras las agregaciones. ...

29 de agosto de 2012 · Carlos J. Gil Bellosta