¿Creer o no creer?

El otro día me llegó por correo el Informe sobre el Uso del Software Libre en los Hogares Españoles 2011. Lo realiza el CENATIC, Centro Nacional de Referencia de Aplicación de las Tecnologías de Información y la Comunicación basadas en Fuentes Abiertas, por lo que uno espera, de antemano, cierto sesgo. Una de las tablas de resultados es: Entiendo que los porcentajes de uso se refieren al universo de la población española, extrapolados mediante un […] muestreo por cuotas, donde se incluyen cuotas con afijación proporcional al peso real de la población objeto, obteniendo estos datos del Instituto Nacional de Estadística, en el período más actualizado. ...

2 de abril de 2012 · Carlos J. Gil Bellosta

Tolstoi, sobre los mercados ineficientes

Arranca Tolstoi en Ana Karenina con esta frase mítica: Todas las familias felices se parecen entre sí; las infelices son desgraciadas en su propia manera. Me recuerda mucho a la contraposición entre la probabilidad que estudié en la universidad y la que regía fuera. Dentro, mis variables eran, casi indefectivamente, iid, es decir, independientes e idénticamente distribuidas. Y las variables independientes son muy parecidas entre sí. Incluso más, diría yo, que las familias felices. ...

30 de marzo de 2012 · Carlos J. Gil Bellosta

Otra de huelgas

Hoy, por motivos evidentes, e igual que en septiembre de 2010, voy a hablar de huelgas. De la misma fuente que entonces he descargado este fichero. Y he ejecutado library(pxR) library(reshape) library(ggplot2) dat <- read.px("pcaxis-623612450.px") dat <- as.data.frame(dat) dat.mes <- cast(dat, Periodo ~ series) colnames(dat.mes) <- c("mes", "n.huelgas", "n.trabajadores", "n.jornadas") p <- ggplot(data = dat.mes) + geom_line(aes(x = mes, y = n.huelgas, group = rep(1, nrow(dat)))) p ggsave("huelgas_por_mes.png") dat.anno <- dat tmp <- strsplit(as.character(dat.anno$Periodo), "M") dat.anno$Periodo <- sapply(tmp, function(x) x[1]) dat.anno <- cast(dat.anno, Periodo ~ series, fun.aggregate = sum) colnames(dat.anno) <- c("anno", "n.huelgas", "n.trabajadores", "n.jornadas") p <- ggplot(data = dat.anno, aes(x = anno, y = n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line() p <- p + geom_point(aes(size = n.jornadas)) p <- p + scale_x_discrete("año") + scale_y_continuous("número de huelgas") p ggsave("huelgas_por_anno.png") p <- ggplot(data = dat.anno, aes(x = anno, y = n.trabajadores/n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line() p <- p + scale_x_discrete("año") + scale_y_continuous("número de trabajadores por huelga") p ggsave("trabajadores_huelga_por_anno.png") p <- ggplot(data = dat.anno, aes(x = anno, y = n.jornadas /n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line() p <- p + scale_x_discrete("año") + scale_y_continuous("número de jornadas por huelga") p ggsave("jornadas_huelga_anno.png") para obtener, por un lado, el número de huelgas por mes desde enero de 1995 a noviembre de 2011: ...

29 de marzo de 2012 · Carlos J. Gil Bellosta

Acceso y reutilización de datos públicos

Las leyes son un carajal. Últimamente he tenido que enfrentarme a algunas y me doy cuenta de que es un error que los abogados (y los legisladores) no hayan seguido nunca un buen curso de geometría euclídea. Pongo un ejemplo. La Constitución Española (artículo 22) dice que las asociaciones deberán inscribirse en un registro a los solos efectos de publicidad. Pues bien, parece ser que una asociación, y nos ocurrió con la Comunidad R Hispano no es legal (para poder abrir una cuenta corriente, por ejemplo) de no inscribirse en el registro. ¿Pero no era a los solos efectos de publicidad? ¿Son lo mismo publicidad y legalidad? ...

27 de marzo de 2012 · Carlos J. Gil Bellosta

2013, año internacional de la estadística

En 2013 celebraremos el Año Internacional de la Estadística. Diversas organizaciones estadísticas, entre las que no veo al INE, se han unido para dar a conocer “la importancia de la estadística en la comunidad científica, el mundo de los negocios, la administración pública, los medios de comunicación, las empresas, los estudiantes y el público en general”. Pueden consultarse las actividades programadas y la lista de organizaciones patrocinadoras, a la que es posible que se sume la Comunidad R Hispano.

26 de marzo de 2012 · Carlos J. Gil Bellosta

Error de tipo I, error de tipo II y cómo no confundirlos

Mucha gente se hace un lío con los errores de tipo I y II. Para ellos, esta regla nemotécnica: Tipo I, un false: I falsely think hypothesis is true Tipo II, dos falses: I falsely think hypothesis is false

16 de marzo de 2012 · Carlos J. Gil Bellosta

Estrenos con ecos estadísticos (II): Contagio

La otra de las películas que vi durante mis vacaciones en que resonaban ecos estadísticos fue Contagio. Como casi todas las películas, personaliza. Y es que a la gente le gusta ver caras. Así nos cuenta la historia de una rubia, su marido, su hija, etc. Excipiente lacrimógeno. (Aunque alguien pueda querer ver en la rubia la trasunta de Gaëtan Dugas, el paciente cero; igual que —según algunos— Dugas, es la primera persona en contagiarse de un virus letal y lo transporta a EE.UU., donde se desencadena una epidemia). ...

12 de marzo de 2012 · Carlos J. Gil Bellosta

¿Varianza explicada?

Sin darnos cuenta, abusamos de ciertos términos. Uno de ellos es el de la varianza explicada. Después de años utilizándolo como por inercia, he venido a darme cuenta por dos vías distintas de su impropiedad: una de mis recientes lecturas y una experiencia profesional. Tal vez sea más sencillo comenzar exponiendo la crítica realizada en esa página. Parte del análisis de la serie de muertes en Chicago entre 1987 y el 2000: ...

8 de marzo de 2012 · Carlos J. Gil Bellosta

Esperanzador no: varianzador

Que conste que soy un partidario de los adjetivos. Supongo que por sentimentalismo. Me caen simpáticos excepto cuando se abusa de ellos y se dice, por ejemplo, analítica en lugar de análisis o normativa en lugar de norma o los usan estadísticos en horario laboral. Y si trabajan en el INE, aún más: se les paga por estadísticos, no por guionistas de opereta. Viene esto al siguiente párrafo (con mi subrayado): ...

7 de marzo de 2012 · Carlos J. Gil Bellosta

El modelo lineal en Youtube

Gentileza de Juanjo Gibaja, tenemos en Youtube una colección entera de vídeos sobre el modelo lineal. Y seguramente, pronto, sobre más asuntos de relevancia estadística. Y dejo aquí uno de los de la serie:

2 de marzo de 2012 · Carlos J. Gil Bellosta