Números

¿Es Vd. de izquierdas o de derechas?

En una escala (de enteros) del 1 al 10, ¿cuál es el punto medio? ¿Cuál indicaría indiferencia entre ambas opciones? No, no es 5; es 5.5.

Cuando el CIS, en sus barómetros, como el de abril, pregunta

obtiene las respuestas

en las que se aprecian fenómenos sesgantes como, por ejemplo:

  • Toda esa gente que se define ni fú ni fá (véase el pico en el 5), va a elegir 5 pero ¿por qué no 6? El 5 está tan alejado del valor medio, 5.5, como 6.
  • Si damos por bueno que la gente que no sabe calcular medias va a cosiderar 5 el valor neutro, quedan 4 casillas de izquierdas (1:4) y 5 de derechas (6:10).
  • Como consecuencia de lo anterior, solo te dejan ser muy, muy, muy, muy de izquierdas pero no muy, muy, muy, muy, muy de izquierdas; pero sí muy, muy, muy, muy, muy de derechas.

Es folk knowledge que España es un país sociológicamente de izquierdas. Y ese conocimiento está fundamentado en esa pregunta (y, obviamente, sus respuestas).

¿Dónde dejar de leer? Un caso práctico

Hay mucho por leer. El tiempo es finito y valioso. Es imperativo contar con criterios para dejar de leer. Identificar señales tempranas que indiquen que no merece la pena seguir. Generalmente, porque te están tratando de vender una moto.

En una de las primeras diapositivas de la VIII Encuesta de Percepción de la Ciencia realizado por la Fundación Española para la Ciencia y la Tecnología (Fecyt) se muestran las respuestas a la siguiente pregunta:

Avisos recibidos, avisos resueltos y la creciente suma acumulada

El ayuntamiento de Madrid publica información (desde 2015) de los avisos recibidos por los ciudadanos a través de los distintos canales puestos a su disposición (010, LineaMadrid, la app, etc.).

He bajado los datos y he pintado

que es la suma acumulada de la diferencia entre los avisos entrantes y los resueltos día a día usando

library(data.table)
library(xts)

recibidos <- rbindlist(lapply(dir(pattern = "recibi"), fread))
resueltos <- rbindlist(lapply(dir(pattern = "resu"), fread))

recibidos.fecha <- recibidos[, .(n.recibidos = .N), by = "FECHA_DE_RECEPCION"]
resueltos.fecha <- resueltos[, .(n.resueltos = .N), by = "FECHA_DE_RECEPCION"]

ambos <- merge(recibidos.fecha, resueltos.fecha)

ambos$fecha <- as.Date(ambos$FECHA_DE_RECEPCION, format = "%d/%m/%Y")
ambos$FECHA_DE_RECEPCION <- NULL

ambos <- ambos[order(ambos$fecha),]
ambos$pendientes <- cumsum(ambos$n.recibidos - ambos$n.resueltos)

tmp <- xts(ambos$pendientes, order.by = ambos$fecha)
plot(tmp, main = "Avisos pendientes en Avisa Madrid (010, etc.)" ,
        ylab = "cola de pendientes")

Comentarios:

Guadalajara joven, Guadalajara inconclusa

Continuando con mi serie sobre la Guadalajara demográfica,

que muestra la proporción de menores de 16 por municipio en la provincia.

No me habría atrevido a publicar nada tan en agraz si no fuese para dejar dos notas de potencial provecho para mis lectores. La primera que he usado los mapas que, dicen, son los de verdad de la buena. No los del INE, que son de amateur, sino los del SIANE del Instituto Geográfico Nacional, que me cuentan los que saben de la cosa que son los que se recomienda utilizar.

Zu den Sachen selbst

Circulan verdades alternativas, postverdades. Se caracterizan (atributo que comparten con muchas verdades) por su carácter secundario.

Pero nosotros podemos acudir a fuentes primarias. Como Wim Hordijk en Citizen science: Facts or fake news?: ¿terremotos? ¿tormentas tropicales? ¿erupciones volcánicas? ¿Por qué no echarle un vistazo a esto, esto o esto?

Estamos rodeados de cuñaos que nos hablan como si no supiésemos consultar en Google, escrapear medio Siglo de Oro o buscar en los archivos de la Biblioteca Nacional. Son segundones que abrevan en fuentes secundarias.

El extraño y extremoso caso de los empleados fantasma de Galapagar

El planteamiento:

Su versión larga exige leer El misterio de los 2.875 empleos nuevos de Galapagar.

La versión corta: en Galapagar, un pequeño municipio de la provincia de Madrid, el número de afiliados a la Seguridad Social crece súbita, inopinada e inexplicablemente en casi 3000 personas (50% de incremento).

El nudo:

Comienzan a progarse teorías conspiranoicas. Léanse los comentarios a la noticia anterior. La gente piensa que hay gato encerrado.

El desenlace:

"Todas" las terrazas de Madrid

es un mapa en el que, en rojo, figuran todas (véase la coda) las terrazas de Madrid. Los datos están extraídos del censo de locales, sus actividades y terrazas de hostelería y restauración del ayuntamiento y están procesados con

terrazas <- fread("http://datos.madrid.es/egob/catalogo/200085-17-censo-locales.txt")
terrazas$coordenada_x_local <- as.numeric(gsub(",", ".", terrazas$coordenada_x_local))
terrazas$coordenada_y_local <- as.numeric(gsub(",", ".", terrazas$coordenada_y_local))
tmp <- terrazas[terrazas$coordenada_x_local > 1000, ]
tmp <- terrazas[terrazas$coordenada_y_local > 3e6,]

# UTM a siglo XXI
library(rgdal)
terrazas.utm     <- SpatialPoints(
    cbind(tmp$coordenada_x_local,
    tmp$coordenada_y_local),
    proj4string=CRS("+proj=utm +zone=30"))
terrazas.latlong <- spTransform(terrazas.utm,
    CRS("+proj=longlat"))

library(ggmap)
madrid <- get_map("madrid", zoom = 12)
tmp <- as.data.frame(terrazas.latlong)
ggmap(madrid) + geom_point(
    aes(x = coords.x1, y = coords.x2),
    data = tmp, size = .5,
    col = "red", alpha = 0.3)

Sobre las cursivas de todas:

Sobre una poco conocida y para nada menguante "brecha de género"

Con datos del INE sobre mortalidad he construido el gráfico

que muestra las tasas de mortalidad relativas (la de hombres entre la de mujeres) desde 1975 para cada edad. Como no se aprecia debidamente el efecto que da pie a esta entrada, reorganizo los ejes (y promedio, ¡glups!, las tasas de mortalidad por grupos quinquenales de edad):

Se observa una manifiesta tendencia creciente, uno de esos gender gaps, brechas de género o como quiera que se llamen a estas cosa en neolengua que, lejos de menguar, crece y crece.

Enhorabuena a eldiario.es porque el análisis de el diario.es de los resultados de PISA está perfectamente alineado con la linea editorial de eldiario.es

Eso, ¡enhorabuena!

El estudio está aquí. Como no tiene enlace a datos y métodos, no puedo añadir más. Aplaudo en todo caso al autor que no preste atención a la significancia (véase en el artículo como los intervalos de confianza no cortan el cero en ningún punto) como al tamaño del efecto (aunque no justifique si es grande o pequeño). De nuevo, ¡enhorabuena!

Nota: Si alguien tiene críos en edad escolar y va a elegir una escuela u otra por lo que diga el señor Héctor Cebolla Boado como dice él, a vuelapluma, y luego se da cuenta de que se ha equivocado, que le proteste a él y no a otros.

#NadieSinLuz

Está siendo tremending topic en Twitter según escribo. Uno de los trinos asociados al caudal es

que remite a un Observatorio Social de las Personas Mayores, el de 2015 específicamente. No vale el de 2016 o el de 2014 porque en ninguno de ellos hace referencia a tan abultada y, diríamos, significantísima cifra.

Aunque precedido y sucedido de silencio, el de 2015, como digo, sí. Cita como fuente otro estudio, Pobreza energética en España, Análisis de tendencias realizado por la Asociación de Ciencias Ambientales y que goza del patrocinio de la acción social del banco que es el mayor accionista de la empresa que cortó la luz por impago a la octogenaria de Reus que murió atufada por unas velas provocando con ello la indignación del tuiterío y, con ello, la salida a colación de las 7000 muertes prematuras causadas por la pobreza energética que recoge el Observatorio Social de las Personas Mayores de 2014 citando como referencia…

¿Seis sigmas? Porque a mí solo me llegan 4.5 sigmas

Seis sigma es un conjunto de métodos y prácticas para mejorar la calidad de los procesos industriales. Su nombre está inspirado por la distribución normal: aspira a que la tasa de errores (por ejemplo, piezas defectuosas producidas por una planta) sea pnorm(-6).

six_sigma_definition_standard_deviations

Pero pnorm(-6) es 9.8e-10 (uno por millardo, aproximadamente), mientras que, según la Wikipedia, que siempre tiene la razón, la aspiración del Seis Sigma es la de alcanzar 3.4 defective features per million opportunities. Que es bastante (trescientas veces) superior.