La página de referencia es esta. En esa página, en la que no sobra ni una letra, hay:
Dentro del bloque de la nueva EPA, hay:
library(MicroDatosEs)
raw <- epa2005("/home/carlos/Downloads/diseno_epa/datos_3t16")
head(raw)
## # A tibble: 6 × 93
## CICLO CCAA PROV NVIVI NIVEL NPERS
## <dbl> <chr> <chr> <dbl> <chr> <dbl>
## 1 176 País Vasco Álava 1 Persona de 16 o más años 1
## 2 176 País Vasco Álava 2 Persona de 16 o más años 1
## 3 176 País Vasco Álava 2 Persona de 16 o más años 2
## 4 176 País Vasco Álava 2 Menor de 16 años 3
## 5 176 País Vasco Álava 3 Persona de 16 o más años 1
## 6 176 País Vasco Álava 4 Persona de 16 o más años 1
## # ... with 87 more variables: EDAD <chr>, RELPP <chr>, SEXO <chr>,
## # NCONY <dbl>, NPADRE <dbl>, NMADRE <dbl>, RELLMILI <chr>, ECIV <chr>,
## # PRONA <chr>, REGNA <chr>, NAC <chr>, EXREGNA <chr>, ANORE <dbl>,
## # NFORMA <chr>, RELLB <chr>, EDADEST <dbl>, CURSR <chr>, NCURSR <chr>,
## # CURSNR <chr>, NCURNR <chr>, HCURNR <dbl>, RELLB2 <chr>, TRAREM <chr>,
## # AYUDFA <chr>, AUSENT <chr>, RZNOTB <chr>, VINCUL <chr>, NUEVEM <chr>,
## # OCUP <chr>, ACT <chr>, SITU <chr>, SP <chr>, DUCON1 <chr>,
## # DUCON2 <chr>, DUCON3 <chr>, TCONTM <dbl>, TCONTD <dbl>, DREN <dbl>,
## # DCOM <dbl>, PROEST <chr>, REGEST <chr>, PARCO1 <chr>, PARCO2 <chr>,
## # HORASP <dbl>, HORASH <dbl>, HORASE <dbl>, EXTRA <chr>, EXTPAG <dbl>,
## # EXTNPG <dbl>, RZDIFH <chr>, TRAPLU <chr>, OCUPLU <chr>, ACTPLU <chr>,
## # SITPLU <chr>, HORPLU <dbl>, MASHOR <chr>, DISMAS <chr>, RZNDISH <chr>,
## # HORDES <dbl>, BUSOTR <chr>, BUSCA <chr>, DESEA <chr>, FOBACT <chr>,
## # NBUSCA <chr>, ASALA <chr>, EMBUS <chr>, ITBU <chr>, DISP <chr>,
## # RZNDIS <chr>, EMPANT <chr>, DTANT <dbl>, OCUPA <chr>, ACTA <chr>,
## # SITUA <chr>, OFEMP <chr>, SIDI1 <chr>, SIDI2 <chr>, SIDI3 <chr>,
## # SIDAC1 <chr>, SIDAC2 <chr>, MUN <chr>, PRORE <chr>, REPAIRE <chr>,
## # TRAANT <chr>, AOI <chr>, CSE <chr>, FACTOREL <dbl>
Es el número de representados por cada observación. Tiene que ver con el muestreo aplicado y con la calibración. La calibración es un ajuste estadístico realizado para que los totales estimados casen con los establecidos por otras estimaciones y recuentos: el censo, los padrones, etc. Por ejemplo, la suma de los FACTOREL
de las mujeres de 50-54 años de nacionalidad española tiene que sumar el número de españolas de ese tramo de edad a nivel nacional según el censo. Y lo mismo dentro de cada CCAA y algunos grandes municipios.
hist(raw$FACTOREL / 100, col = "gray", breaks = 100,
main = "Distribución del factor de elevación", xlab = "número de representados",
ylab = "frecuencia")
La variable AOI
se construye a partir de varias preguntas del cuestionario y recoge la definición de activo, desempleado, etc. propuesta internacionalmente por la OIT.
library(plyr)
res <- ddply(raw, .(AOI), summarize, cuantos = sum(FACTOREL) / 100)
res
## AOI
## 1 Inactivos 1 (desanimados)
## 2 Inactivos 2 (junto con los desanimados forman los activos potenciales)
## 3 Inactivos 3 (resto de inactivos)
## 4 Ocupados subempleados por insuficiencia de horas
## 5 Parados que buscan primer empleo
## 6 Parados que han trabajado antes
## 7 Resto de ocupados
## 8 <NA>
## cuantos
## 1 361340.8
## 2 202164.9
## 3 15131792.1
## 4 1836035.3
## 5 471092.0
## 6 3849715.1
## 7 16691488.1
## 8 7439127.6
La tasa de paro es el cociente entre los activos no ocupados los activos:
activos <- sum(res$cuantos[4:7])
parados <- sum(res$cuantos[5:6])
tasa.paro <- 100 * parados / activos
tasa.paro
## [1] 18.91082
En teoría, contienen toda la información sobre una encuesta (o censo). Suelen ser, como la EPA:
Los ficheros de microdatos del INE están listados aquí.
Especialmente orientado a microdatos de encuestas que:
Actualmente están implementados:
Son muy interesantes los barómetros, que el CIS realiza mensualmente (menos en agosto). Se realizan a unas 2500 personas e incluyen preguntas:
A partir de las preguntas fijas se elaboran los indicadores. De las otras preguntas se habla menos, pero tienen su importancia en distintos ámbitos. Las respuestas se tabulan en función de una serie de variables predefinidas (de orientación política, de nivel socieconómico).
Para otros cruces, para crear modelos, etc. hace falta acceder a los microdatos.
Los microdatos (anonimizados, etc.) de los barómetros están disponibles. El CIS proporciona:
Es sencillo crear un programa que:
Pagas una licencia… y ya.
.sav
.library(haven)
raw <- read_sav("/home/carlos/Downloads/diseno_epa/cis/DA3149.sav")
raw[1:10, 1:10]
## # A tibble: 10 × 10
## ESTU CUES CCAA PROV MUN TAMUNI CAPITAL DISTR
## <dbl> <dbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl>
## 1 3149 1 16 1 59 5 1 0
## 2 3149 2 16 1 59 5 1 0
## 3 3149 3 16 1 59 5 1 0
## 4 3149 4 16 1 59 5 1 0
## 5 3149 5 16 1 59 5 1 0
## 6 3149 6 16 1 59 5 1 0
## 7 3149 7 16 1 59 5 1 0
## 8 3149 8 16 1 59 5 1 0
## 9 3149 9 16 1 59 5 1 0
## 10 3149 10 16 1 59 5 1 0
## # ... with 2 more variables: SECCION <dbl+lbl>, ENTREV <dbl+lbl>