Los microdatos de la EPA

La página de referencia es esta. En esa página, en la que no sobra ni una letra, hay:

Dentro del bloque de la nueva EPA, hay:

Un paneo por los microdatos de la EPA

library(MicroDatosEs)
raw <- epa2005("/home/carlos/Downloads/diseno_epa/datos_3t16")
head(raw)
## # A tibble: 6 × 93
##   CICLO       CCAA  PROV NVIVI                    NIVEL NPERS
##   <dbl>      <chr> <chr> <dbl>                    <chr> <dbl>
## 1   176 País Vasco Álava     1 Persona de 16 o más años     1
## 2   176 País Vasco Álava     2 Persona de 16 o más años     1
## 3   176 País Vasco Álava     2 Persona de 16 o más años     2
## 4   176 País Vasco Álava     2         Menor de 16 años     3
## 5   176 País Vasco Álava     3 Persona de 16 o más años     1
## 6   176 País Vasco Álava     4 Persona de 16 o más años     1
## # ... with 87 more variables: EDAD <chr>, RELPP <chr>, SEXO <chr>,
## #   NCONY <dbl>, NPADRE <dbl>, NMADRE <dbl>, RELLMILI <chr>, ECIV <chr>,
## #   PRONA <chr>, REGNA <chr>, NAC <chr>, EXREGNA <chr>, ANORE <dbl>,
## #   NFORMA <chr>, RELLB <chr>, EDADEST <dbl>, CURSR <chr>, NCURSR <chr>,
## #   CURSNR <chr>, NCURNR <chr>, HCURNR <dbl>, RELLB2 <chr>, TRAREM <chr>,
## #   AYUDFA <chr>, AUSENT <chr>, RZNOTB <chr>, VINCUL <chr>, NUEVEM <chr>,
## #   OCUP <chr>, ACT <chr>, SITU <chr>, SP <chr>, DUCON1 <chr>,
## #   DUCON2 <chr>, DUCON3 <chr>, TCONTM <dbl>, TCONTD <dbl>, DREN <dbl>,
## #   DCOM <dbl>, PROEST <chr>, REGEST <chr>, PARCO1 <chr>, PARCO2 <chr>,
## #   HORASP <dbl>, HORASH <dbl>, HORASE <dbl>, EXTRA <chr>, EXTPAG <dbl>,
## #   EXTNPG <dbl>, RZDIFH <chr>, TRAPLU <chr>, OCUPLU <chr>, ACTPLU <chr>,
## #   SITPLU <chr>, HORPLU <dbl>, MASHOR <chr>, DISMAS <chr>, RZNDISH <chr>,
## #   HORDES <dbl>, BUSOTR <chr>, BUSCA <chr>, DESEA <chr>, FOBACT <chr>,
## #   NBUSCA <chr>, ASALA <chr>, EMBUS <chr>, ITBU <chr>, DISP <chr>,
## #   RZNDIS <chr>, EMPANT <chr>, DTANT <dbl>, OCUPA <chr>, ACTA <chr>,
## #   SITUA <chr>, OFEMP <chr>, SIDI1 <chr>, SIDI2 <chr>, SIDI3 <chr>,
## #   SIDAC1 <chr>, SIDAC2 <chr>, MUN <chr>, PRORE <chr>, REPAIRE <chr>,
## #   TRAANT <chr>, AOI <chr>, CSE <chr>, FACTOREL <dbl>
Variables interesantes: FACTOREL

Es el número de representados por cada observación. Tiene que ver con el muestreo aplicado y con la calibración. La calibración es un ajuste estadístico realizado para que los totales estimados casen con los establecidos por otras estimaciones y recuentos: el censo, los padrones, etc. Por ejemplo, la suma de los FACTOREL de las mujeres de 50-54 años de nacionalidad española tiene que sumar el número de españolas de ese tramo de edad a nivel nacional según el censo. Y lo mismo dentro de cada CCAA y algunos grandes municipios.

hist(raw$FACTOREL / 100, col = "gray", breaks = 100,
     main = "Distribución del factor de elevación", xlab = "número de representados",
     ylab = "frecuencia")

Variables interesantes: AOI

La variable AOI se construye a partir de varias preguntas del cuestionario y recoge la definición de activo, desempleado, etc. propuesta internacionalmente por la OIT.

library(plyr)
res <- ddply(raw, .(AOI), summarize, cuantos = sum(FACTOREL) / 100)
res
##                                                                      AOI
## 1                                              Inactivos 1 (desanimados)
## 2 Inactivos 2 (junto con los desanimados forman los activos potenciales)
## 3                                       Inactivos 3 (resto de inactivos)
## 4                       Ocupados subempleados por insuficiencia de horas
## 5                                       Parados que buscan primer empleo
## 6                                        Parados que han trabajado antes
## 7                                                      Resto de ocupados
## 8                                                                   <NA>
##      cuantos
## 1   361340.8
## 2   202164.9
## 3 15131792.1
## 4  1836035.3
## 5   471092.0
## 6  3849715.1
## 7 16691488.1
## 8  7439127.6

La tasa de paro es el cociente entre los activos no ocupados los activos:

activos <- sum(res$cuantos[4:7])
parados <- sum(res$cuantos[5:6])
tasa.paro <- 100 * parados / activos
tasa.paro
## [1] 18.91082

Los microdatos

En teoría, contienen toda la información sobre una encuesta (o censo). Suelen ser, como la EPA:

Los ficheros de microdatos del INE están listados aquí.

MicroDatosEs

Barómetros del CIS

Son muy interesantes los barómetros, que el CIS realiza mensualmente (menos en agosto). Se realizan a unas 2500 personas e incluyen preguntas:

A partir de las preguntas fijas se elaboran los indicadores. De las otras preguntas se habla menos, pero tienen su importancia en distintos ámbitos. Las respuestas se tabulan en función de una serie de variables predefinidas (de orientación política, de nivel socieconómico).

Para otros cruces, para crear modelos, etc. hace falta acceder a los microdatos.

Lectura de microdatos

Los microdatos (anonimizados, etc.) de los barómetros están disponibles. El CIS proporciona:

  • el fichero de microdatos como fichero de texto de ancho fijo y
  • código en SPSS para leerlo.

A mano

Es sencillo crear un programa que:

  • Lea en un fichero de ancho fijo tramos de caracteres en cada fila y los asigne a variables.
  • Traduzca esos códigos a etiquetas (si procede) usando un diccionario.

Usando SPSS

Pagas una licencia… y ya.

Usando PSPP

  • PSPP es un proyecto de clon de SPSS
  • Aunque es limitado, sabe interpretar el código proporcionado por el CIS y crear un fichero .sav.
library(haven)
raw <- read_sav("/home/carlos/Downloads/diseno_epa/cis/DA3149.sav")

raw[1:10, 1:10]
## # A tibble: 10 × 10
##     ESTU  CUES      CCAA      PROV       MUN    TAMUNI   CAPITAL     DISTR
##    <dbl> <dbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl>
## 1   3149     1        16         1        59         5         1         0
## 2   3149     2        16         1        59         5         1         0
## 3   3149     3        16         1        59         5         1         0
## 4   3149     4        16         1        59         5         1         0
## 5   3149     5        16         1        59         5         1         0
## 6   3149     6        16         1        59         5         1         0
## 7   3149     7        16         1        59         5         1         0
## 8   3149     8        16         1        59         5         1         0
## 9   3149     9        16         1        59         5         1         0
## 10  3149    10        16         1        59         5         1         0
## # ... with 2 more variables: SECCION <dbl+lbl>, ENTREV <dbl+lbl>

Referencias