Cartogramas con recmap

He construido que, obviamente no es la gran maravilla, basándome en Rectangular Statistical Cartograms in R: The recmap Package y usando library(rgdal) library(pxR) library(recmap) provs <- readOGR(dsn = "provincias/", layer = "Provincias") pobl <- as.data.frame(read.px("2852.px", encoding = "latin1"), use.codes = T) pobl2 <- as.data.frame(read.px("2852.px", encoding = "latin1")) pobl$nombre <- pobl2$Provincias pobl <- pobl[, c("Provincias", "nombre", "value")] colnames(pobl) <- c("COD_PROV", "nombre", "poblacion") pobl <- pobl[pobl$COD_PROV != "null",] pobl <- pobl[!pobl$COD_PROV %in% c("51", "52", "38", "07", "35"),] dat <- merge(provs, pobl, by = "COD_PROV", all.x = FALSE) dat@data$NOM_PROV <- NULL dat$z <- dat$poblacion tmp <- as.recmap(dat) tmp$name <- dat@data$nombre tmp$ccaa <- dat@data$COD_CCAA res <- recmapGA(tmp, popSize = 300, maxiter = 30, run = 10) cartogram <- res$Cartogram ccaa <- tmp[, c("name", "ccaa")] ccaa$ccaa <- as.numeric(factor(ccaa$ccaa)) cartogram <- merge(cartogram, ccaa) plot.recmap(cartogram, col.text = "black", main = "cartograma -- población\n españa peninsular", col = cartogram$ccaa) Como los datos los he bajado de por ahí y no recuerdo dónde, dejo como referencia el objeto arriba llamado tmp aquí.

15 de julio de 2019 · Carlos J. Gil Bellosta

Nota para mí: usar flextable, usar flextable

De aquí a cuando lo tenga que usar realmente, seguro que me olvido. Así que retomo el uso original de este blog, que era el de dejarme notas a mí mismo y apunto: usa [flextable`](https://cran.r-project.org/package=flextable). ¿Y por qué?, me preguntaré a mí mismo dentro de unos días. Pues por cosas como esta: (Claro está, salvo que alguien tenga a bien proponer una alternativa mejor).

25 de junio de 2019 · Carlos J. Gil Bellosta

Modelos GARCH (o: no me cuentes tu vida, dame el pxxx modelo generativo y ya)

Los modelos GARCH son otra de esas cosas de las que oyes hablar y como nunca se convierten en problemas de los de carne en el asador, preocupan poco y ocupan menos (más allá de que sabes que se trata de modelos similares a los de series temporales de toda la vida donde la varianza varía de cierta forma a lo largo del tiempo). Pero comienzas a leer cosas como esta y no te enteras de nada: solo hay letras y llamadas a funciones oscuras y oscurantistas. ...

31 de mayo de 2019 · Carlos J. Gil Bellosta

1 3 6 19 30 34 2 7 18 31 33 16 9 27 22 14 11 25 24 12 13 23 26 10 15 21 28 8 17 32 4 5 20 29 35

Son los enteros del 1 al 35 ordenados de forma que dos consecutivos en la serie suman un cuadrado perfecto. Los he obtenido así: library(adagio) foo <- function(n){ desde <- 1:n hasta <- 1:n todos <- expand.grid(desde, hasta) todos <- todos[todos$Var1 < todos$Var2,] todos$sqrt <- sqrt(todos$Var1 + todos$Var2) todos <- todos[todos$sqrt == round(todos$sqrt),] todos$sqrt <- NULL vertices <- as.vector(t(todos)) hamiltonian(vertices) } foo(35) Notas: Esta entrada está inspirada en algo que he visto en Twitter (pero cuya referencia he olvidado guardar). Puedes probar con otros números, aunque no siempre existe un ciclo hamiltoniano.

27 de mayo de 2019 · Carlos J. Gil Bellosta

¿Qué puede colgar de un árbol?

Predicciones puntuales: O (sub)modelos: Y parece que ahora también distribuciones: Notas: Obviamente, la clasificación anterior no es mutuamente excluyente. La tercera gráfica está extraída de Transformation Forests, un artículo donde se describe el paquete trtf de R. Los autores dicen que regression models for supervised learning problems with a continuous target are commonly understood as models for the conditional mean of the target given predictors. ¿Vosotros lo hacéis así? Yo no, pero ¡hay tanta gente rara en el mundo! Y añaden que a more general understanding of regression models as models for conditional distributions allows much broader inference from such models. Que era lo que creía que todos hacíamos. Menos, tal vez, algún rarito.

21 de mayo de 2019 · Carlos J. Gil Bellosta

Elecciones e índice (supernaíf) de Shapley

Aprovechando que el paquete GameTheoryAllocation ha emergido de mi FIFO de pendientes a los pocos días de conocerse los resultados de las [adjetivo superlativizado omitidísimo] elecciones generales, voy a calcular de la manera más naíf que se me ocurre el índice de Shapley de los distintos partidos. Que es: Al menos, de acuerdo con el siguiente código: library(GameTheoryAllocation) partidos <- c(123, 66, 57, 35, 24, 15, 7, 7, 6, 4, 2, 2, 1, 1) names(partidos) <- c("psoe", "pp", "cs", "iu", "vox", "erc", "epc", "ciu", "pnv", "hb", "cc", "na", "compr", "prc") coaliciones <- coalitions(length(partidos)) tmp <- coaliciones$Binary profit <- tmp %*% partidos profit <- 1 * (profit > 175) res <- Shapley_value(profit, game = "profit") res <- as.vector(res) names(res) <- names(partidos) res <- rev(res) dotchart(res, labels = names(res), main = "naive shapley index \n elecciones 2019") Lo del índice de Shapley, de ignorarlo, lo tendréis que consultar por vuestra cuenta. Al menos, para saber por qué no debería usarse tan frecuentemente (en problemas de atribución, entre otros). ...

7 de mayo de 2019 · Carlos J. Gil Bellosta

Simulación de procesos de Poisson no homogéneos y autoexcitados

Fueron mis modelos favoritos un tiempo, cuando modelaba visitas y revisitas de usuarios a cierto malhadado portal. Si las visitas fuesen aleatorias (en cierto sentido), tendrían un aspecto no muy distinto del que se obtiene haciendo library(IHSEP) suppressWarnings(set.seed(exp(pi * complex(imaginary = 1)))) tms <- simPois(int = function(x) .1, cens = 1000) hist(tms, breaks = 100, main = "Proceso homogéneo de Poisson", xlab = "", ylab = "frecuencia") Es decir, o bien una distribución uniforme en el tiempo. Pero bien puede ocurrir que una visita incremente la probabilidad de otra inmediatamente después, por lo que las visitas tenderían a arracimarse en determinados momentos. Con el paquete [IHSEP](https://cran.r-project.org/package=IHSEP) de R pueden simularse (y ajustarse) este tipo de modelos. Por ejemplo, ...

5 de abril de 2019 · Carlos J. Gil Bellosta

Mi semilla

suppressWarnings(set.seed(exp(pi * complex(imaginary = 1)))) runif(1) #[1] 0.4866672 set.seed(-1) runif(1) #[1] 0.4866672 Coda: ¿De qué, si no, creéis que iba esto?

29 de marzo de 2019 · Carlos J. Gil Bellosta

Análisis (clasificación, etc.) de textos muy cortos

Uno de mis proyectos permanentemente pospuestos es el del análisis de textos muy cortos. Se citarán Twitter y similares, aunque el € está en otros sitios, como los mensajes asociados a transferencias bancarias, reseñas o keywords. Pero parece que no soy el único interesado en el tema. Otros con más tiempo y talento han desarrollado BTM, que parece ser una versión modificada de LDA para el análisis de textos cortos. El artículo en el que está basado el paquete también es una buena referencia de técnicas y trucos cuando toca analizar este tipo de conjuntos de datos.

22 de marzo de 2019 · Carlos J. Gil Bellosta

Pesos de los componentes del QualityScore en Google Ads

El llamado QualityScore tiene su relevancia en Google Ads. Es un indicador con valores entre 1 y 10 asignado por Google que se basa en tres variables que están descritas por ahí: PostClickQualityScore SearchPredictedCtr CreativeQualityScore Se trata de variables categóricas con tres niveles: en / por encima de / por debajo de la media. Haciendo modelo <- lm(QualityScore ~ PostClickQualityScore + SearchPredictedCtr + CreativeQualityScore, data = tmp) summary(modelo) se obtiene Call: lm(formula = QualityScore ~ PostClickQualityScore + SearchPredictedCtr + CreativeQualityScore, data = tmp) Residuals: Min 1Q Median 3Q Max -0.25003 -0.07395 0.00775 0.06344 0.86470 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.079603 0.008688 124.3 <2e-16 *** PostClickQualityScoreAVERAGE 2.114012 0.009037 233.9 <2e-16 *** PostClickQualityScoreABOVE_AVERAGE 3.856228 0.008448 456.5 <2e-16 *** SearchPredictedCtrAVERAGE 1.137396 0.003284 346.4 <2e-16 *** SearchPredictedCtrABOVE_AVERAGE 3.055694 0.004707 649.2 <2e-16 *** CreativeQualityScoreAVERAGE 0.999580 0.004274 233.9 <2e-16 *** CreativeQualityScoreABOVE_AVERAGE 2.000725 0.003862 518.1 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.1574 on 11426 degrees of freedom Multiple R-squared: 0.9915, Adjusted R-squared: 0.9915 F-statistic: 2.212e+05 on 6 and 11426 DF, p-value: < 2.2e-16 Que no merece mayor explicación. Creo.

7 de marzo de 2019 · Carlos J. Gil Bellosta