Experimentos con "extremely small data": la media muestral de pocas betas

Aquí, contracorriente. Dejamos aparcado el big data y le damos a lo que nos da de comer. Entre otras cosas, este pequeño experimento con muy pequeños datos (¿tres?). La aplicación es real. Y los datos pequeños porque son carísimos. Se puede suponer que tienen distribución beta de parámetros desconocidos. Nos interesa la media muestral de unas pocas observaciones: dos, tres, cuatro,… En particular, qué distribución tiene. Si fuesen muchos, podríamos aplicar el teorema central del límite (que funciona estupendamente incluso con valores no muy grandes). Pero la suma de pocas observaciones beta no tiene una distribución con nombre (que yo sepa). Pero podemos usar un viejo truco (parecido al de la aproximación de Welch para el número de grados de libertad de la prueba de Student cuando las varianzas son desiguales): ...

12 de abril de 2017 · Carlos J. Gil Bellosta

Pues sí, puede fabricarse uno para España

Es responde a mi entrada de la semana pasada y se lo debemos a la gentileza de Sergio J. El código, con mínimas modificaciones mías (para automatizar la descarga de los datos) es library(pxR) library(dplyr) library(tidyr) library(ggplot2) #---- Carga y transformacion de datos download.file("http://www.datanalytics.com/uploads/3199.px", "3199.px") pob <- read.px("3199.px", encoding = "latin1") pob <- as.data.frame(pob) pob$Sexo <- NULL pob$Periodo <- as.numeric(as.character(pob$Periodo)) pob <- separate(pob, Provincias, into = c("id_provincia", "provincia"), sep = 3) pob$fecha <- as.Date(paste0(pob$Periodo, "-12-31")) pob <- subset(pob,as.numeric(id_provincia)<=50) #---- Plot bl <- sapply(1:22, function(n) paste(rep(" ",n),collapse="")) pob$provincia.reorder <- factor( pob$provincia, levels = c("Coruña, A","Lugo","Asturias","Cantabria","Bizkaia","Gipuzkoa","Navarra",bl[1:2], "Pontevedra","Ourense","León","Palencia","Burgos","Araba/Álava" ,"Huesca","Lleida","Girona", bl[3:4],"Zamora","Valladolid","Soria","Rioja, La","Zaragoza","Tarragona","Barcelona", bl[5:6],"Salamanca","Ávila","Segovia","Guadalajara","Teruel",bl[7:8], bl[9:10],"Cáceres","Toledo","Madrid","Cuenca","Castellón/Castelló",bl[11],"Balears, Illes", bl[12:13],"Badajoz","Córdoba","Ciudad Real","Albacete", "Valencia/València",bl[14:15], bl[16:17],"Huelva","Sevilla","Jaén","Murcia","Alicante/Alacant",bl[18:19], bl[20:21],"Cádiz","Málaga","Granada","Almería",bl[22],"Palmas, Las","Santa Cruz de Tenerife")) ggplot(pob, aes(x = fecha, y = value)) + geom_line() + facet_wrap(~ provincia.reorder, ncol=9,drop = F, strip.position="bottom") + labs(title = "Evolución de la edad media por provincias en España (1975-2016)", y="Edad Media") + theme_classic() + theme(axis.text.x = element_blank(), strip.background=element_blank(), axis.line=element_blank(), axis.ticks=element_blank()) Se aceptan modificaciones y mejoras, por supuesto. Y si alguien quiere dedicarle el tiempo necesario para crear un paquete en R que lo generalice, creo que será bienvenido por la comunidad.

10 de abril de 2017 · Carlos J. Gil Bellosta

¿Podría fabricarse uno para España?

Me refiero a algo similar a (referencia): Lo ideal sería crear una función compatible con el sistema de facetas de ggplot2 con nombre, p.e., facet_spain que permitiese disponer cualquier tipo de gráfico en una retícula similar. No particularmente difícil, pero sí, seguro, utilísimo. ¿A nadie le tienta el proyecto? [Me encanta el impersonal de “podría fabricarse…”. ¡Es como tan de tirar la piedra y esconder la mano!]

7 de abril de 2017 · Carlos J. Gil Bellosta

Lo (mínimo) que hay que saber de series temporales: breve, conciso e indoloro

Es Forecasting: principles and practice, de Hyndman y Athana­sopou­los.

6 de abril de 2017 · Carlos J. Gil Bellosta

Etsa es una edntara a pubrea de roreetcs cnctoaumes

Psandeno en cómo ebiisrcr a pbruea de roceetrs plaigoaris couetmacns rodecré esto y lo he idepmneatlmo en R. No sé si ertéaiss o no de adeurco en que fncniuoa o no, es dicer, que los ttoexs son rloeincboecs si se faijn la pmirera y úmtila lerta de cada pabrala y se puertma el retso. Lo que sí que es ctireo es que añade a cdaa txeto una mcraa catstaícirerca que decnniua su pdcionereca. Lo mlao sreía que el rtecor, cosiape la ieda, el cgiódo que cipoo djeabo, psermuate las pcmtanorieeus y qesudae como un señor. ...

5 de abril de 2017 · Carlos J. Gil Bellosta

Tres grandes problemas que ocupan pero, según el CIS, no preocupan

Plañe el periodista porque dizque hay tres graves problemas que, a pesar de lo que ocupan (en los medios), a la hora del CIS, no preocupan. Aggiorno una vieja entrada para ver, por ejemplo, cómo ha variado en los últimos años la preocupación de los encuestados por el CIS acerca de uno de los tres graves problemas: De hecho, el porcentaje que se muestra indica la proporción de los encuestados que mencionaron el asunto como uno de los tres principales problemas de España. La pregunta, de respuesta abierta, aparece así formulada en los cuestionarios: ...

3 de abril de 2017 · Carlos J. Gil Bellosta

Evolución de la edad media de la población por provincias

Abundo en la entrada de ayer. Lo hago para mostrar En el gráfico anterior se muestra la evolución de la edad media de la población de las provincias españolas como diferencia con respecto a una evolución media calculada como la regresión lineal de todas las edades medias con respecto al año. Es decir, algo así como evolución relativa. Se aprecian claramente los rejuvenecimientos relativos de Guadalajara y, en menor medida, Toledo. Especialmente acusados durante este siglo. ...

29 de marzo de 2017 · Carlos J. Gil Bellosta

Rejillas poblacionales con R (un borrador)

me llegó ayer por Twitter (vía @unnombrealazar). En el mapa aparece representada la edad media de la población por provincia (y hoy voy a dar las cloropetas por buenas). Salta a la vista Guadalajara: tiene una edad media ¿sorprendentemente? baja. Tanto que tuve que comprobarlo en el INE. La explicación (siempre a posteriori) más obvia es @gilbellosta @unnombrealazar inmigrantes que trabajan en el corredor del henares, familias con niños supongo – jesus alfaro (@jesusalfar) 26 de marzo de 2017 ...

28 de marzo de 2017 · Carlos J. Gil Bellosta

EM (duro) a mano (y para humanos)

Dada una configuración de puntos tal como puede pensarse que existen dos grupos (clústers los llaman casi todos menos el neotroll de estas páginas y algún otro purista) de puntos organizados alrededor de unas rectas que se adivinan. Nos planteamos el problema de identificarlas y de asignar los puntos a su respectiva. Una posible estrategia consiste en construir la verosimilitud asociada al problema y maximizarla. Esa verosimilitud dependería de muchos parámetros: ...

20 de marzo de 2017 · Carlos J. Gil Bellosta

Todo lo que sucede en R es una llamada a una función

En serio, es así. ¿También if? Pues también. De hecho, `if`(1 == 3, print("a"), print("b")) Y eso permite, por ejemplo, que funcionen expresiones tales como a <- if (1 == 3) 4 else 5 tan útiles como poco empleadas en general. También son funciones (, { y otras que aparecen en la sección .Internal vs .Primitive del documento R Internals.

16 de marzo de 2017 · Carlos J. Gil Bellosta