Posts

Balanzas fiscales (así, en plural)

En España, lo de las balanzas fiscales es como lo de las manifestaciones: un número que se tiran a la cabeza y con muy mala baba tirios y troyanos. La cantinela que más se oye es la de la prensa periférica (perdón, prensa de la parte este de la periferia: existen otras periferias que callan como palabras de cuatro letras): dizque Cataluña aporta mucho más a la hacienda pública que lo que después recibe de ella por inversiones y servicios. ...

Cuando falta la variable más importante (II)

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menos que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación. La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc. ...

Corrección por exposición del modelo logístico

He tropezado con una extensión curiosa y que no conocía del modelo logístico que lo emparenta un tanto con los modelos de supervivencia. Es un problema que aparece en los modelos de los actuarios, por ejemplo, y en la supervivencia de nidos (sí, nidos de bichos alados), parece. Es el siguiente: supongamos que unos sujetos están expuestos a un cierto suceso cuya probabilidad, $p_i$, depende del sujeto a través del esquema habitual de la regresión logística (es decir, depende de algunas variables como el sexo, etc., a través de una fórmula lineal cuyos coeficientes interesa estimar). ...

Un intérprete alternativo de R

Java es un lenguaje de programación que puede ejecutarse sobre muchas máquinas virtuales distintas: la de Sun, la de IBM, etc. Algo parecido pasa con SAS, que puede ejecutarse sobre el intérprete de SAS Institute o sobre el de WPS. El código escrito en R puede ejecutarse, en principio, en dos plataformas distintas: La creada por el R Development Core Team y que todos, más o menos, conocemos. La desarrollada por Tibco (y, previamente, por Insightful) para S-Plus, el dialecto propietario de R (o S). ¿Son esas todas las opciones? Sí, por el momento. ...

Cuando falta la variable más importante

Imaginemos que queremos predecir y, que toma valores 0 y 1 a partir de indicios (o variables) x mediante una función (un clasificador) f. Podemos visualizar el error de clasificación usando la matriz Efectivamente, el error es (perdónenme la notación) B+C. Como estadísticos estamos habituados a tratar de minimizar C mientras mantenemos B lo suficientemente pequeño. Un test es tanto más potente cuanto menor es C. Pero podemos reescribir B+C como ...

De D'Hondt a Banzhaf

Hablé el otro día con Emilio Torres y comentamos de pasada la situación política en Asturias, donde vive, después de las últimas elecciones. El escaño obtenido por UPyD otorgaba a tal partido un poder en exceso del tamaño de su representación porque era clave para formar el futuro gobierno del principado. Pero, ¿cuánto poder realmente supone ese escaño en esas condiciones? ¿Puede cuantificarse? Porque se habla mucho en periodo electoral de la ley D’Hondt pero, una vez asignados los escaños, cambia el juego. ...

Churn y redes sociales: un ejemplo en telecomunicaciones

He leído recientemente el artículo Social Ties and their Relevance to Churn in Mobile Telecom Networks porque ilustra una técnica muy de moda: el análisis de redes sociales (SNA) en el ámbito de las telecomunicaciones y, en particular, la construcción de indicadores tempranos de baja (churn) de clientes de telefonía móvil. Más aún, permite rediseñar estrategias basadas en los resultados para retener clientes: al clasificarlos mejor usando técnicas de SNA, pueden diseñarse estrategias activas para aquellos que no solo tienen una mayor predisposición a darse de baja sino, además, a arrastrar con ellos a parte de su entorno social. ...

¿Creer o no creer?

El otro día me llegó por correo el Informe sobre el Uso del Software Libre en los Hogares Españoles 2011. Lo realiza el CENATIC, Centro Nacional de Referencia de Aplicación de las Tecnologías de Información y la Comunicación basadas en Fuentes Abiertas, por lo que uno espera, de antemano, cierto sesgo. Una de las tablas de resultados es: Entiendo que los porcentajes de uso se refieren al universo de la población española, extrapolados mediante un […] muestreo por cuotas, donde se incluyen cuotas con afijación proporcional al peso real de la población objeto, obteniendo estos datos del Instituto Nacional de Estadística, en el período más actualizado. ...

Tolstoi, sobre los mercados ineficientes

Arranca Tolstoi en Ana Karenina con esta frase mítica: Todas las familias felices se parecen entre sí; las infelices son desgraciadas en su propia manera. Me recuerda mucho a la contraposición entre la probabilidad que estudié en la universidad y la que regía fuera. Dentro, mis variables eran, casi indefectivamente, iid, es decir, independientes e idénticamente distribuidas. Y las variables independientes son muy parecidas entre sí. Incluso más, diría yo, que las familias felices. ...

Otra de huelgas

Hoy, por motivos evidentes, e igual que en septiembre de 2010, voy a hablar de huelgas. De la misma fuente que entonces he descargado este fichero. Y he ejecutado library(pxR) library(reshape) library(ggplot2) dat <- read.px("pcaxis-623612450.px") dat <- as.data.frame(dat) dat.mes <- cast(dat, Periodo ~ series) colnames(dat.mes) <- c("mes", "n.huelgas", "n.trabajadores", "n.jornadas") p <- ggplot(data = dat.mes) + geom_line(aes(x = mes, y = n.huelgas, group = rep(1, nrow(dat)))) p ggsave("huelgas_por_mes.png") dat.anno <- dat tmp <- strsplit(as.character(dat.anno$Periodo), "M") dat.anno$Periodo <- sapply(tmp, function(x) x[1]) dat.anno <- cast(dat.anno, Periodo ~ series, fun.aggregate = sum) colnames(dat.anno) <- c("anno", "n.huelgas", "n.trabajadores", "n.jornadas") p <- ggplot(data = dat.anno, aes(x = anno, y = n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line() p <- p + geom_point(aes(size = n.jornadas)) p <- p + scale_x_discrete("año") + scale_y_continuous("número de huelgas") p ggsave("huelgas_por_anno.png") p <- ggplot(data = dat.anno, aes(x = anno, y = n.trabajadores/n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line() p <- p + scale_x_discrete("año") + scale_y_continuous("número de trabajadores por huelga") p ggsave("trabajadores_huelga_por_anno.png") p <- ggplot(data = dat.anno, aes(x = anno, y = n.jornadas /n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line() p <- p + scale_x_discrete("año") + scale_y_continuous("número de jornadas por huelga") p ggsave("jornadas_huelga_anno.png") para obtener, por un lado, el número de huelgas por mes desde enero de 1995 a noviembre de 2011: ...