Ine

Encuesta de Estructura Salarial y R: propedéutica

La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza:

El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior.

Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así:

library(MicroDatosEs)
dat <- ees2010("md_EES_2014.txt")

# Días año
dat$DIASRELABA <- dat$DRELABAM * 30.42 +
    dat$DRELABAD
dat$DIASRELABA[dat$DIASRELABA > 365]<- 365
dat$DIASANO <- dat$DIASRELABA -
    dat$DSIESPA2 - dat$DSIESPA4

# Salario bruto anual
dat$SALANUAL = (365/dat$DIASANO) *
    (dat$SALBRUTO + dat$VESP)

Ahora sí que se puede definir, por ejemplo,

Una cosa buena, una cosa mala

Que son la misma: esta.

Comienzo por lo malo: ¿realmente necesitamos 17+1 INEs publicando la vistas de la misma información a través de 17+1 APIs, 17+1 paquetes de R y (17+1)*N mantenedores y desarrolladores?

Lo bueno: tiene buena pinta y es encomiable tanto el esfuerzo de los autores como su vocación de servicio público.

Nota: Espero que no enfaden demasiado el 50% de los juicios que he emitido a quien me ha enviado el enlace para su evaluación y posible difusión. Sepa que lo tengo en grande estima y que me consta responsable de mucho de la parte buena y casi nada de la mala.

Sobre la brecha salarial... de belleza

¿Por qué existe un debate público sobre la brecha salarial de género y no sobre la brecha salarial por cualquier otra presunta causa? La hay, p.e., por nivel de estudios. Pero, claro, uno siempre puede argumentar en términos meritocráticos. ¿Por sector económico? Ahí está menos claro y discutirlo nos llevaría muy lejos.

Pero, ¿por qué no ir más allá de las variables registradas por el INE y fijarnos, p.e., en la belleza (física)? Porque parece que brecha, hayla. Diráse que es una medida subjetiva y no refrendada por el registro civil. No como el sexo. Pero si mal no recuerdo, la última vez que alguien fletó un bus naranja para explicarnos que los niños tienen pene y las niñas, vulva, la cosa acabó como el rosario de la aurora.

Más sobre las proyecciones de población del INE

Bastante he hablado de las proyecciones de población del INE (p.e., aquí o aquí). Insisto porque el gráfico que aparece en la segunda página de la nota de prensa de las últimas, a saber,

se parece muchísimo a un gráfico que garabateé en el Bar Chicago de Zúrich (el peor garito de la peor calle de una de las mejores ciudades del mundo), con demasiadas cervezas en el cuerpo y mientras nos reíamos hasta de las bombillas. Era algo así como

Suicidios, crisis, y cambios de régimen en series temporales

El capo de los diletantes, en declaraciones a El País, dijo:

“Ellos no se habían dado cuenta y nosotros tampoco”, asegura Antonio Cabrera de León, autor principal del artículo del medio millón de muertos, que defiende la tesis principal de su trabajo: “Yo no tengo duda de que ha habido un incremento importantísimo de la mortalidad”. Y añade: “No negamos que haya un problema con los datos, que a lo mejor no son 500.000, puede variar en decenas de miles arriba o abajo”. Para Cabrera, director del área de Medicina Preventiva y Salud Pública de la ULL, no se puede negar que “los suicidios por los desahucios y las penurias están ahí”.

¿El mejor formato para diseminar microdatos?

A raíz de mi entrada de ayer, se han iniciado en mi derredor algunas discusiones sobre cuál podría ser el formato indicado para diseminar microdatos. En particular, los del INE. Y el asunto no es trivial.

Hasta la fecha, el procedimiento habitual era utilizar ficheros de ancho fijo con códigos, típicamente numéricos (p.e., 1-hombre; 6-mujer). Existían diccionarios asociados con pares código-descripción que se distribuían en hojas de cálculo adjuntas; es decir, metadatos. El procedimiento tradicional, por lo tanto, equivalía a desnormalizar la información: una tabla maestra contenía claves externas y una miríada de tablas auxiliares, una por columna, resolvían esas claves a sus correspondientes descripciones.

¡Un aplauso para el INE!

Decían que la ciencia avanzaba de entierro en entierro. Diríase que el INE avanza de jubilación en jubilación y que el efecto de la savia nueva comienza a manifestarse.

Lo hace, por ejemplo, en los microdatos de la Encuesta de Estructura Salarial de 2014. El fichero actual contiene, cosa inaudita, código para importarlos a SPSS, SAS y R. De verdad. Y eso merece nuestro aplauso. Particularmente, para el funcionario que haya tenido que pelear con la caverna para que las cosas no siguiesen siendo igual que siempre. Le debemos cervezas todos.

Leaflet con capas WMS de Correos, Catastro, etc.

R

Esta entrada es un subproducto del trabajo que pocería que he realizado estos días en caRtociudad.

caRtociudad permite generar mapas estáticos al estilo de ggmap. Iba a poner algún ejemplo, pero los dejo para otro día.

La cosa es que mejorando caRtociudad::get_cartociudad_map, se me ha pasado por la cabeza la posibilidad de realizar la integración no ya con ggmap sino con leaflet. Y así (¡probadlos!), para los códigos postales,

library(leaflet)

leaflet() %>% addTiles() %>%
  setView(-3.703399, 40.41688, zoom = 14) %>%
  addWMSTiles(
  "http://www.ign.es/wms-inspire/ign-base",
  layers = "codigo-postal",
  options = WMSTileOptions(format = "image/png",
    transparent = TRUE),
  tileOptions(tms = TRUE),
  attribution = "")

Para las secciones censales,

Población: el padrón y la otra cosa

En un proyecto necesitábamos cifras de población por provincias durante los últimos años. Así que usamos los datos del padrón proporcionados por el INE (el INE es guay; AEMET es kk). Pero alguien nos dijo que era mejor usar los otros datos de población, los nosequé (sí, las estimaciones intercensales, si es que se llaman así) porque eran más mejores.

El padrón es un registro administrativo. Lo otro es algo soportado por lo que yo llamo método y el resto de la humanidad, metodología.

Lecciones estadísticas que pueden extraerse de los disturbios de Lavapiés

Mi barrio ha sufrido una serie de sobresaltos provocados por la incontinencia de la plebe frumentaria a raíz de la muerte por infarto de un mantero. Ha salido en las noticias y no merece la pena abundar en ello.

Y no mencionaría el asunto salvo porque el otro día, de casualidad, advertí que el antedicho mantero y yo compartimos sección censal. Lo cual invita a una reflexión de corte estadístico. Porque las secciones censales son las unidades más básicas de las que existe información estadística (número de personas, distribución por sexos, edades, etc.) toda ella convenientemente promediada (renta media, etc.). La vieja historia del si yo me como un pollo y tú ninguno, un estadístico diría que nos estamos comiendo los dos medio, pero de otra manera.

Secciones censales en la Wikipedia

Era una vergüenza que tantos de nosotros estemos dándole vueltas periódicamente al concepto de sección censal y este no tenga una mala entrada en la Wikipedia.

O no la tenía hasta que creé un microartículo en ella.

Estoy seguro que muchos de los lectores de estas páginas saben más (y a ciencia cierta; y pueden, además, encontrar la fuente donde aparece propiamente escrito por la autoridad pertinente) sobre el asunto que lo que aparece ahí reflejado. Y por su cuenta o a través de otros (p.e., servidor) se encargarán de hacerlo constar.

Simpson, de nuevo: ahora con la mortalidad

La tasa de mortalidad ha crecido sustancialmente en los dos últimos años (tres, de hecho: el INE no publica datos para el 2017 todavía, pero yo los he y fe doy):

Sin embargo, la tasa de mortalidad para cada cohorte de edad decrece. Muestro las de las cohortes de edades múltiplas de cinco:

De nuevo, Simpson.

Nota: las cifras vienen expresadas en defunciones por cada 1000 habitantes. Los datos salen de aquí.

rOpenSpain: ahí tiro el guante

La gente de rOpenSci hace cosas a las que merece la pena atento. Tanto por los objetivos como por medios y las formas. Recomiendo seguir sus últimas publicaciones acerca de la profesionalización del proceso de desarrollo de código.

Llevo unos meses jugando con una idea inspirada por rOpenSci: crear un respositorio y un consorcio más o menos formal que desarrolle, mantenga y mejore herramientas (en R) de interés para el procesamiento y análisis de datos ya no científicos sino españoles. Hablo, obviamente, de INE (EPA, EPF, censo, padrón,…), CIS (barómetros, etc.), IGN (Siane,…), encuestas electorales, etc.