La tierra gira alrededor del sol, sí, pero... ¿cuánta gente lo sabe?

Pues según la VIII Encuesta de Percepción de la Ciencia realizado por la Fundación Española para la Ciencia y la Tecnología (Fecyt), el 88.3% de los españoles (mayores de cierta edad y tal, supongo).

Así lo recogen los medios que podéis consultar al respecto.

Pero, ¿de acuerdo con los muy escépticos y bien informados lectores de esta página? No, a este selecto grupúsculo de irreductibles carpetovetones no nos van a engañar con unas sumitas de Excel.

Guadalajara joven, Guadalajara inconclusa

Continuando con mi serie sobre la Guadalajara demográfica,

que muestra la proporción de menores de 16 por municipio en la provincia.

No me habría atrevido a publicar nada tan en agraz si no fuese para dejar dos notas de potencial provecho para mis lectores. La primera que he usado los mapas que, dicen, son los de verdad de la buena. No los del INE, que son de amateur, sino los del SIANE del Instituto Geográfico Nacional, que me cuentan los que saben de la cosa que son los que se recomienda utilizar.

Zu den Sachen selbst

Circulan verdades alternativas, postverdades. Se caracterizan (atributo que comparten con muchas verdades) por su carácter secundario.

Pero nosotros podemos acudir a fuentes primarias. Como Wim Hordijk en Citizen science: Facts or fake news?: ¿terremotos? ¿tormentas tropicales? ¿erupciones volcánicas? ¿Por qué no echarle un vistazo a esto, esto o esto?

Estamos rodeados de cuñaos que nos hablan como si no supiésemos consultar en Google, escrapear medio Siglo de Oro o buscar en los archivos de la Biblioteca Nacional. Son segundones que abrevan en fuentes secundarias.

Oferta de empleo: científico de datos todero para "startup"

Mi otro yo busca un científico de datos todero para trabajar en una startup madrileña en un ámbito colindante al de las finanzas (aunque no es estrictamente financiera).

La plataforma analítica está todavía sin definir, pero participaría en las decisiones relevantes y en su construcción.

Todero significa que tiene que estar abierto a trabajar (y aprender) distintas tecnologías. Startup significa muchas cosas que creo que todos entendemos.

Los interesados pueden mandar su CV a cgb@circiter.es.

Experimentos con "extremely small data": la media muestral de pocas betas

Aquí, contracorriente. Dejamos aparcado el big data y le damos a lo que nos da de comer. Entre otras cosas, este pequeño experimento con muy pequeños datos (¿tres?).

La aplicación es real. Y los datos pequeños porque son carísimos.

Se puede suponer que tienen distribución beta de parámetros desconocidos. Nos interesa la media muestral de unas pocas observaciones: dos, tres, cuatro,… En particular, qué distribución tiene.

Si fuesen muchos, podríamos aplicar el teorema central del límite (que funciona estupendamente incluso con valores no muy grandes). Pero la suma de pocas observaciones beta no tiene una distribución con nombre (que yo sepa). Pero podemos usar un viejo truco (parecido al de la aproximación de Welch para el número de grados de libertad de la prueba de Student cuando las varianzas son desiguales):

El extraño y extremoso caso de los empleados fantasma de Galapagar

El planteamiento:

Su versión larga exige leer El misterio de los 2.875 empleos nuevos de Galapagar.

La versión corta: en Galapagar, un pequeño municipio de la provincia de Madrid, el número de afiliados a la Seguridad Social crece súbita, inopinada e inexplicablemente en casi 3000 personas (50% de incremento).

El nudo:

Comienzan a progarse teorías conspiranoicas. Léanse los comentarios a la noticia anterior. La gente piensa que hay gato encerrado.

El desenlace:

Pues sí, puede fabricarse uno para España

R

Es

responde a mi entrada de la semana pasada y se lo debemos a la gentileza de Sergio J.

El código, con mínimas modificaciones mías (para automatizar la descarga de los datos) es

library(pxR)
library(dplyr)
library(tidyr)
library(ggplot2)

#---- Carga y transformacion de datos

download.file("http://www.datanalytics.com/uploads/3199.px", "3199.px")

pob <- read.px("3199.px", encoding = "latin1")
pob <- as.data.frame(pob)
pob$Sexo <- NULL
pob$Periodo <- as.numeric(as.character(pob$Periodo))
pob <- separate(pob, Provincias, into = c("id_provincia", "provincia"), sep = 3)
pob$fecha <- as.Date(paste0(pob$Periodo, "-12-31"))
pob <- subset(pob,as.numeric(id_provincia)<=50)

#---- Plot

bl <- sapply(1:22, function(n) paste(rep(" ",n),collapse=""))

pob$provincia.reorder <- factor(
    pob$provincia,
    levels = c("Coruña, A","Lugo","Asturias","Cantabria","Bizkaia","Gipuzkoa","Navarra",bl[1:2],
  "Pontevedra","Ourense","León","Palencia","Burgos","Araba/Álava" ,"Huesca","Lleida","Girona",
  bl[3:4],"Zamora","Valladolid","Soria","Rioja, La","Zaragoza","Tarragona","Barcelona",
  bl[5:6],"Salamanca","Ávila","Segovia","Guadalajara","Teruel",bl[7:8],
  bl[9:10],"Cáceres","Toledo","Madrid","Cuenca","Castellón/Castelló",bl[11],"Balears, Illes",
  bl[12:13],"Badajoz","Córdoba","Ciudad Real","Albacete", "Valencia/València",bl[14:15],
  bl[16:17],"Huelva","Sevilla","Jaén","Murcia","Alicante/Alacant",bl[18:19],
  bl[20:21],"Cádiz","Málaga","Granada","Almería",bl[22],"Palmas, Las","Santa Cruz de Tenerife"))

ggplot(pob, aes(x = fecha, y = value)) +
  geom_line() + facet_wrap(~ provincia.reorder,
    ncol=9,drop = F, strip.position="bottom") +
  labs(title = "Evolución de la edad media por provincias en España (1975-2016)", y="Edad Media") +
  theme_classic() +
  theme(axis.text.x = element_blank(),
        strip.background=element_blank(),
        axis.line=element_blank(),
        axis.ticks=element_blank())

Se aceptan modificaciones y mejoras, por supuesto. Y si alguien quiere dedicarle el tiempo necesario para crear un paquete en R que lo generalice, creo que será bienvenido por la comunidad.

¿Podría fabricarse uno para España?

Me refiero a algo similar a (referencia):

Lo ideal sería crear una función compatible con el sistema de facetas de ggplot2 con nombre, p.e., facet_spain que permitiese disponer cualquier tipo de gráfico en una retícula similar.

No particularmente difícil, pero sí, seguro, utilísimo.

¿A nadie le tienta el proyecto?

[Me encanta el impersonal de “podría fabricarse…”. ¡Es como tan de tirar la piedra y esconder la mano!]