9.2 Práctica Guiada
En esta sección trabajaremos con las bases de la Encuesta Permanente de Hogares del INDEC, para ejemplificar la forma de trabajar con encuestas en general. Realizaremos tres ejercicios que luego serán replicados, en la sección de práctica independiente, pero con la Encuesta Anual de Hogares de CABA.
9.2.1 Encuesta Permanente de Hogares
Recomendaciones para trabajar con esta encuesta:
- Tener a mano el diseño de registro
- Utilizar el paquete
eph
- Si queremos estar seguros sobre la definición de una categoría, apelar a los documentos metodológicos (por ejemplo: el caso de los asalariados encubiertos)
- tirar frecuencias o plots de las variables antes de usarlas (-9, 0, NAs, etc…)
Cargamos las librerías
# install.packages("eph")
library(eph) # para trabajar con EPH
library(tidyverse)
library(expss) # para trabajar con la etiqueta de los datos
Cargamos las bases con una función del paquete eph
, que no va a descargar en disco la información pero sí la va a cargar en el entorno de trabajo de R.
?eph::get_microdata
individual <- get_microdata(year = 2019, trimester = 1, type = 'individual')
hogar <- get_microdata(year = 2019, trimester = 1, type = 'hogar')
Sobre las bases:
- Qué tienen en común (CODUSU, NRO_HOGAR)
- Para qué nos pueden servir esas variables en común
- La función
organize_labels()
permite etiquetar los datos - Seleccionamos variables relevantes para el ejercicio: información contenida en cada una
individual <- organize_labels(individual, type = 'individual') %>%
select(CODUSU, NRO_HOGAR, AGLOMERADO, COMPONENTE, CH04, ESTADO, CAT_OCUP, P21, P47T, PONDERA, PONDII, PONDIIO)
hogar <- organize_labels(hogar, type = 'hogar') %>%
select(CODUSU, NRO_HOGAR, IV12_2, IV12_3)
## IV12_2: zona inundable
## IV12_3: villa de emergencia
9.2.1.1 Ejercicio 1
Cuántas personas viven en viviendas ubicadas en villas de emergencias y en zonas inundables?
Notemos que la pregunta refiere a las personas, pero la información sobre la ubicación de la vivienda figura en la base de hogares.
- Join de bases individual y hogar (y al revés?)
- Las variables de filtro y agrupamiento
- El rol de los ponderadores
- Función para mostrar los resultados etiquetados
ejercicio1 <- left_join(individual, hogar, by = c("CODUSU", "NRO_HOGAR")) %>%
filter(IV12_2 == 1 | IV12_3 == 1) %>%
group_by(IV12_2, IV12_3) %>%
summarise(Cantidad = sum(PONDERA)) %>%
expss::values2labels(.)
ejercicio1
## # A tibble: 3 x 3
## # Groups: IV12_2 [2]
## IV12_2 IV12_3 Cantidad
## <labelled> <labelled> <int>
## 1 Si Si 173476
## 2 Si No. 3311861
## 3 No. Si 411544
9.2.1.2 Ejercicio 2
Calcular el ingreso de la ocupación principal promedio, para las/os ocupadas/os por aglomerados y sexo
- La variable de filtro
- Las variables de agrupamiento
- La media ponderada y un nuevo ponderador
- Cálculo de la brecha
- Función para presentar en formato porcentual
ejercicio2 <- individual %>%
filter(ESTADO == 1) %>%
group_by(AGLOMERADO, CH04) %>%
summarise(promedio_iop = weighted.mean(P21, PONDIIO)) %>% # ponderador
spread(., CH04, promedio_iop) %>%
expss::values2labels(.) %>%
mutate(Brecha = ((Varon - Mujer)/Varon)) %>%
arrange(-Brecha) %>%
mutate(Brecha = scales::percent(Brecha))
ejercicio2
## # A tibble: 32 x 4
## # Groups: AGLOMERADO [32]
## AGLOMERADO Varon Mujer Brecha
## <labelled> <dbl> <dbl> <chr>
## 1 Bahia Blanca - Cerri 27015. 16331. 39.5%
## 2 Mar del Plata - Batan 26720. 16759. 37.3%
## 3 Cdro. Rivadavia - R.Tilly 35599. 22464. 36.9%
## 4 San Nicolas - Villa Constitucion 21593. 13896. 35.6%
## 5 Rio Gallegos 30725. 20323. 33.9%
## 6 Rio Cuarto 21263. 14452. 32.0%
## 7 Posadas 19034. 13175. 30.8%
## 8 Partidos del GBA 21590. 15174. 29.7%
## 9 Ciudad de Buenos Aires 32350. 22803. 29.5%
## 10 Gran Cordoba 19962. 14603. 26.8%
## # … with 22 more rows
9.2.1.3 Ejercicio 3
Calcular el ingreso total individual promedio, para quienes perciben ingresos, por aglomerados y sexo
- La variable de filtro: Ingreso total individual positivo
- Las variables de agrupamiento: El aglomerado y el sexo
- Un nuevo ponderador
ejercicio3 <- individual %>%
filter(P47T > 0) %>%
group_by(AGLOMERADO, CH04) %>%
summarise(promedio_iti = weighted.mean(P47T, PONDII)) %>% # ponderador
spread(., CH04, promedio_iti) %>%
expss::values2labels(.) %>%
mutate(Brecha = ((Varon - Mujer)/Varon)) %>%
arrange(-Brecha) %>%
mutate(Brecha = scales::percent(Brecha))
ejercicio3
## # A tibble: 32 x 4
## # Groups: AGLOMERADO [32]
## AGLOMERADO Varon Mujer Brecha
## <labelled> <dbl> <dbl> <chr>
## 1 Cdro. Rivadavia - R.Tilly 37999. 22549. 40.7%
## 2 Bahia Blanca - Cerri 30233. 19515. 35.5%
## 3 San Nicolas - Villa Constitucion 24605. 15944. 35.2%
## 4 Gran Rosario 25308. 16809. 33.6%
## 5 Posadas 22053. 14888. 32.5%
## 6 Ushuaia - Rio Grande 36878. 25410. 31.1%
## 7 Partidos del GBA 24179. 16846. 30.3%
## 8 Gran Resistencia 17314. 12178. 29.7%
## 9 Neuquen - Plottier 30285. 21577. 28.8%
## 10 Gran La Plata 25823. 18996. 26.4%
## # … with 22 more rows