Capítulo 4 Tidyverse y Tasas básicas del Mercado de Trabajo

Reiniciar R

4.1 Estructuración de Bases de Datos

A lo largo de esta clase, trabajaremos con el paquete Tidyverse. El mismo agrupa una serie de paquetes que tienen una misma lógica en su diseño y por ende funcionan en armonía.
Entre ellos usaremos principalmente dplyr y tidyr para realizar transformaciones sobre nuestro set de datos, y ggplot para realizar gráficos (éste último se verá en la clase 3).

A continuación cargamos la librería a nuestro ambiente. Para ello debe estar previamente instalada en nuestra pc.

library(tidyverse)

Para mostrar el funcionamiento básico de tydyverse, crearemos un pequeño set de datos del Indice de salarios.

INDICE  <- c(100,   100,   100,
             101.8, 101.2, 100.73,
             102.9, 102.4, 103.2)

FECHA  <-  c("Oct-16", "Oct-16", "Oct-16",
             "Nov-16", "Nov-16", "Nov-16",
             "Dic-16", "Dic-16", "Dic-16")


GRUPO  <-  c("Privado_Registrado","Público","Privado_No_Registrado",
             "Privado_Registrado","Público","Privado_No_Registrado",
             "Privado_Registrado","Público","Privado_No_Registrado")

Datos <- data.frame(INDICE, FECHA, GRUPO)

4.2 Dplyr

El caracter principal para utilizar este paquete es %>% , pipe (de tubería).

Los %>% toman el set de datos a su izquierda, y los transforman mediante los comandos a su derecha, en los cuales los elementos de la izquierda están implícitos. Es decír, que una vez específicado el DataFrame con el cual se trabaja, no será necesario nombrarlo nuevamente para referirse a una determinada variable/columna del mismo.

Veamos las principales funciones que pueden utilizarse con la lógica de este paquete:

4.2.1 filter

Permite filtrar la tabla acorde al cumplimiento de condiciones lógicas

Datos %>% 
  filter(INDICE>101 , GRUPO == "Privado_Registrado")

##   INDICE  FECHA              GRUPO
## 1  101.8 Nov-16 Privado_Registrado
## 2  102.9 Dic-16 Privado_Registrado

Nótese que en este caso al separar con una , las condiciones se exige el cumplimiento de ambas. En caso de desear que se cumpla una sola condición debe utilizarse el caracter |

Datos %>% 
  filter(INDICE>101 | GRUPO == "Privado_Registrado")

##   INDICE  FECHA                 GRUPO
## 1  100.0 Oct-16    Privado_Registrado
## 2  101.8 Nov-16    Privado_Registrado
## 3  101.2 Nov-16               Público
## 4  102.9 Dic-16    Privado_Registrado
## 5  102.4 Dic-16               Público
## 6  103.2 Dic-16 Privado_No_Registrado

4.2.2 rename

Permite renombrar una columna de la tabla. Funciona de la siguiente manera: Data %>% rename( nuevo_nombre = viejo_nombre )

Datos %>% 
  rename(Periodo = FECHA)

##   INDICE Periodo                 GRUPO
## 1 100.00  Oct-16    Privado_Registrado
## 2 100.00  Oct-16               Público
## 3 100.00  Oct-16 Privado_No_Registrado
## 4 101.80  Nov-16    Privado_Registrado
## 5 101.20  Nov-16               Público
## 6 100.73  Nov-16 Privado_No_Registrado
## 7 102.90  Dic-16    Privado_Registrado
## 8 102.40  Dic-16               Público
## 9 103.20  Dic-16 Privado_No_Registrado

Nótese que a diferencia del ejemplo de la función filter donde utilizábamos == para comprobar una condición lógica, en este caso se utiliza sólo un = ya que lo estamos haciendo es asignar un nombre.

4.2.3 mutate

Permite agregar una variable a la tabla (especificando el nombre que tomará esta), que puede ser el resultado de operaciones sobre otras variables de la misma tabla.

En caso de especificar el nombre de una columna existente, el resultado de la operación realizada “sobrescribirá” la información de la columna con dicho nombre

Datos <- Datos %>% 
  mutate(Doble=INDICE*2)
Datos

##   INDICE  FECHA                 GRUPO  Doble
## 1 100.00 Oct-16    Privado_Registrado 200.00
## 2 100.00 Oct-16               Público 200.00
## 3 100.00 Oct-16 Privado_No_Registrado 200.00
## 4 101.80 Nov-16    Privado_Registrado 203.60
## 5 101.20 Nov-16               Público 202.40
## 6 100.73 Nov-16 Privado_No_Registrado 201.46
## 7 102.90 Dic-16    Privado_Registrado 205.80
## 8 102.40 Dic-16               Público 204.80
## 9 103.20 Dic-16 Privado_No_Registrado 206.40

4.2.4 case_when

Permite definir una variable, la cual toma un valor particular para cada condición establecida. En caso de no cumplir ninguna de las condiciones establecidas la variable tomara valor NA.
Su funcionamiento es el siguiente:
case_when(condicion1 ~ "Valor1",condicion2 ~ "Valor2",condicion3 ~ "Valor3")

Datos <- Datos %>% 
  mutate(Caso_cuando = case_when(GRUPO == "Privado_Registrado"   ~ INDICE*2,
                                 GRUPO == "Público"              ~ INDICE*3,
                                 GRUPO == "Privado_No_Registrado"~ INDICE*5))
Datos

##   INDICE  FECHA                 GRUPO  Doble Caso_cuando
## 1 100.00 Oct-16    Privado_Registrado 200.00      200.00
## 2 100.00 Oct-16               Público 200.00      300.00
## 3 100.00 Oct-16 Privado_No_Registrado 200.00      500.00
## 4 101.80 Nov-16    Privado_Registrado 203.60      203.60
## 5 101.20 Nov-16               Público 202.40      303.60
## 6 100.73 Nov-16 Privado_No_Registrado 201.46      503.65
## 7 102.90 Dic-16    Privado_Registrado 205.80      205.80
## 8 102.40 Dic-16               Público 204.80      307.20
## 9 103.20 Dic-16 Privado_No_Registrado 206.40      516.00

4.2.5 select

Permite especificar la serie de columnas que se desea conservar de un DataFrame. También pueden especificarse las columnas que se desean descartar (agregándoles un -). Muy útil para agilizar el trabajo en bases de datos de gran tamaño.

Datos2 <- Datos %>% 
  select(INDICE, FECHA, GRUPO)
Datos2

##   INDICE  FECHA                 GRUPO
## 1 100.00 Oct-16    Privado_Registrado
## 2 100.00 Oct-16               Público
## 3 100.00 Oct-16 Privado_No_Registrado
## 4 101.80 Nov-16    Privado_Registrado
## 5 101.20 Nov-16               Público
## 6 100.73 Nov-16 Privado_No_Registrado
## 7 102.90 Dic-16    Privado_Registrado
## 8 102.40 Dic-16               Público
## 9 103.20 Dic-16 Privado_No_Registrado

Datos <- Datos %>% 
  select(-c(Doble,Caso_cuando))
Datos

##   INDICE  FECHA                 GRUPO
## 1 100.00 Oct-16    Privado_Registrado
## 2 100.00 Oct-16               Público
## 3 100.00 Oct-16 Privado_No_Registrado
## 4 101.80 Nov-16    Privado_Registrado
## 5 101.20 Nov-16               Público
## 6 100.73 Nov-16 Privado_No_Registrado
## 7 102.90 Dic-16    Privado_Registrado
## 8 102.40 Dic-16               Público
## 9 103.20 Dic-16 Privado_No_Registrado

4.2.6 arrange

Permite ordenar la tabla por los valores de determinada/s variable/s. Es útil cuando luego deben hacerse otras operaciones que requieran del ordenamiento de la tabla

Datos <- Datos %>% 
  arrange(GRUPO, INDICE)
Datos

##   INDICE  FECHA                 GRUPO
## 1 100.00 Oct-16 Privado_No_Registrado
## 2 100.73 Nov-16 Privado_No_Registrado
## 3 103.20 Dic-16 Privado_No_Registrado
## 4 100.00 Oct-16    Privado_Registrado
## 5 101.80 Nov-16    Privado_Registrado
## 6 102.90 Dic-16    Privado_Registrado
## 7 100.00 Oct-16               Público
## 8 101.20 Nov-16               Público
## 9 102.40 Dic-16               Público

4.2.7 summarise

Crea una nueva tabla que resume la información original. Para ello, definimos las variables de resumen y las formas de agregación.

Datos %>% 
  summarise(Indprom = mean(INDICE))

##    Indprom
## 1 101.3589

4.2.8 group_by

Esta función permite realizar operaciones de forma agrupada. Lo que hace la función es “separar” a la tabla según los valores de la variable indicada y realizar las operaciones que se especifican a continuación, de manera independiente para cada una de las “subtablas”. En nuestro ejemplo, sería útil para calcular el promedio de los indices por Fecha

Datos %>% 
  group_by(FECHA) %>%
  summarise(Indprom = mean(INDICE))

## # A tibble: 3 x 2
##   FECHA  Indprom
##   <fct>    <dbl>
## 1 Dic-16    103.
## 2 Nov-16    101.
## 3 Oct-16    100

Notese que los %>% pueden usarse encadenados para realizar numerosos procedimientos sobre un dataframe original. Veamos un ejemplo con multiples encadenamietnos

Encadenado <- Datos %>% 
  filter(GRUPO == "Privado_Registrado") %>% 
  rename(Periodo = FECHA) %>% 
  mutate(Doble = INDICE*2) %>% 
  select(-INDICE)

4.3 Joins

Otra implementación muy importante del paquete dplyr son las funciones para unir tablas (joins)

fuente: http://rstudio-pubs-static.s3.amazonaws.com/227171_618ebdce0b9d44f3af65700e833593db.html

4.3.1 left_join

Veamos un ejemplo de la función left_join (una de las más utilizadas en la práctica).
Para ello crearemos previamente un Dataframe que contenga un Ponderador para cada uno de los Grupos del Dataframe Datos. Aprovecharemos el ejemplo para introducir la función weigthed.mean, y así calcular un Indice Ponderado.

Ponderadores <- data.frame(GRUPO = c("Privado_Registrado","Público","Privado_No_Registrado"),
                            PONDERADOR = c(50.16,29.91,19.93))
Ponderadores

##                   GRUPO PONDERADOR
## 1    Privado_Registrado      50.16
## 2               Público      29.91
## 3 Privado_No_Registrado      19.93

Datos_join <- Datos %>% 
  left_join(.,Ponderadores, by = "GRUPO")
Datos_join

##   INDICE  FECHA                 GRUPO PONDERADOR
## 1 100.00 Oct-16 Privado_No_Registrado      19.93
## 2 100.73 Nov-16 Privado_No_Registrado      19.93
## 3 103.20 Dic-16 Privado_No_Registrado      19.93
## 4 100.00 Oct-16    Privado_Registrado      50.16
## 5 101.80 Nov-16    Privado_Registrado      50.16
## 6 102.90 Dic-16    Privado_Registrado      50.16
## 7 100.00 Oct-16               Público      29.91
## 8 101.20 Nov-16               Público      29.91
## 9 102.40 Dic-16               Público      29.91

Datos_Indice_Gral <- Datos_join %>% 
  group_by(FECHA) %>% 
  summarise(Indice_Gral = weighted.mean(INDICE,w = PONDERADOR))

Datos_Indice_Gral

## # A tibble: 3 x 2
##   FECHA  Indice_Gral
##   <fct>        <dbl>
## 1 Dic-16        103.
## 2 Nov-16        101.
## 3 Oct-16        100

4.4 Tidyr

El paquete tidyr esta pensado para facilitar el emprolijamiento de los datos.

Gather es una función que nos permite pasar los datos de forma horizontal a una forma vertical.

spread es una función que nos permite pasar los datos de forma vertical a una forma horizontal.

fuente: http://www.gis-blog.com/data-management-with-r-tidyr-part-1/

Retomemos el Dataframe original para mostrar como operan estas funciones:

Datos

##   INDICE  FECHA                 GRUPO
## 1 100.00 Oct-16 Privado_No_Registrado
## 2 100.73 Nov-16 Privado_No_Registrado
## 3 103.20 Dic-16 Privado_No_Registrado
## 4 100.00 Oct-16    Privado_Registrado
## 5 101.80 Nov-16    Privado_Registrado
## 6 102.90 Dic-16    Privado_Registrado
## 7 100.00 Oct-16               Público
## 8 101.20 Nov-16               Público
## 9 102.40 Dic-16               Público

4.4.1 Gather y Spread

Datos_Spread <- Datos %>% 
  spread(.,       # el . llama a lo que esta atras del %>% 
  key = GRUPO,    #la llave es la variable cuyos valores van a dar los nombres de columnas
  value = INDICE) #los valores con que se llenan las celdas

Datos_Spread

##    FECHA Privado_No_Registrado Privado_Registrado Público
## 1 Dic-16                103.20              102.9   102.4
## 2 Nov-16                100.73              101.8   101.2
## 3 Oct-16                100.00              100.0   100.0

##La función opuesta (gather) nos permite obtener un dataframe como el original partiendo de un dataframe como el recién construido.
  
Datos_gather <- Datos_Spread %>%  
  gather(.,         # el . llama a lo que esta atras del %>% 
   key   = GRUPO,   # como se llamará la variable que toma los nombres de las columnas 
   value = INDICE,  # como se llamará la variable que toma los valores de las columnas
   2:4)             #le indico que columnas juntar

Datos_gather

##    FECHA                 GRUPO INDICE
## 1 Dic-16 Privado_No_Registrado 103.20
## 2 Nov-16 Privado_No_Registrado 100.73
## 3 Oct-16 Privado_No_Registrado 100.00
## 4 Dic-16    Privado_Registrado 102.90
## 5 Nov-16    Privado_Registrado 101.80
## 6 Oct-16    Privado_Registrado 100.00
## 7 Dic-16               Público 102.40
## 8 Nov-16               Público 101.20
## 9 Oct-16               Público 100.00

4.5 Tasas del Mercado de Trabajo

Luego de abordar las principales funciones necesarias para operar sobre las bases de datos, trabajaremos a continuación con la base del 1er Trimestre de 2017 de la EPH. El ejercicio principal consistirá en calcular la tasa de empleo, definida como:

Tasa de empleo: \(\frac{Ocupados}{Población}\)

Una vez alcanzado dicho resultado, se extenderá el ejercicio hacia el conjunto de tasas básicas presentadas en los Cuadros 1.1 y 1.2, del Informe técnico elaborado por EPH-INDEC. Por último se realizará una modificación para calcular al mismo tiempo las tasas básicas de 2 trimestres consecutivos.

En la carpeta de FUENTES del curso, se encuentra el archivo “EPH_Registro” que contiene las codificación de cada una de las variables de la base, y el archivo “EPH_Concpetos_Actividad” que contiene las definiciones de los Estados ocupacionales a partir de los cuales se construyen las tasas básicas.

Cargamos la librería que usaremos para leer y escribir archivos en excel.

library(openxlsx)

Carga de Informacion

La función list.files nos permite observar los archivos que contiene una determinada carpeta

list.files("../Fuentes/")

## character(0)

La función read.table nos permite levantar los archivos de extensión “.txt”
La función read.xlsx nos permite levantar los archivos de extensión “.xlsx”

Levantamos la base individual del primer trimestre de 2017, y un listado que contiene los Nombres y Códigos de los Aglomerados EPH.

Individual_t117 <-
  read.table("Fuentes/usu_individual_t117.txt",
  sep = ";",
  dec = ",",
  header = TRUE,
  fill = TRUE )
  
  
Aglom <- read.xlsx("Fuentes/Aglomerados EPH.xlsx")

4.5.1 Tasa de Empleo

Creamos una tabla con los niveles de:

Población
Ocupados

Estos niveles nos van a permitir calcular la tasa de forma sencilla.

Población: Si contaramos cuantos registros tiene la base, simplemente tendríamos el numero de individuos muestral de la EPH, por ende debemos sumar los valores de la variable PONDERA, para contemplar a cuantas personas representa cada individuo encuestado.
Ocupados: En este caso, debemos agregar un filtro al procedimiento anterior, ya que unicamente queremos sumar los ponderadores de aquellas personas que se encuentran ocupadas. (La lógica seria: “Suma los valores de la columna PONDERA, solo para aquellos registros donde el ESTADO == 1”)

Poblacion_ocupados <- Individual_t117 %>% 
  summarise(Poblacion         = sum(PONDERA),
            Ocupados          = sum(PONDERA[ESTADO == 1]))

Poblacion_ocupados

##   Poblacion Ocupados
## 1  27416497 11328384

La función summarise() nos permite crear multiples variables de resumen al mismo tiempo, simplemente separando con una , cada uno de ellas. A su vez, se pueden crear variables, a partir de las variables creadas por la propia función. De esta forma, podemos, directamente calcular la tasa de empleo a partir del total poblacional y de ocupados.

Empleo <- Individual_t117 %>% 
  summarise(Poblacion         = sum(PONDERA),
            Ocupados          = sum(PONDERA[ESTADO == 1]),
            Tasa_Empleo    = Ocupados/Poblacion)

Empleo

##   Poblacion Ocupados Tasa_Empleo
## 1  27416497 11328384   0.4131959

Una vez calculada la tasa, incluso podríamos desechar las variables de nivel, para conservar unicamente la tasas

Empleo %>% 
  select(-(1:2))

##   Tasa_Empleo
## 1   0.4131959

4.5.2 Tásas Básicas - Total Aglomerados

Con la misma lógica del ejemplo anterior, podemos construir con solo una porción de código adicional el Cuadro 1.1 del Informe técnico de Mercado de trabajo EPH-INDEC.

####Cuadro 1.1 Principales indicadores. Total 31 aglomerados u

Cuadro_1.1a <- Individual_t117 %>% 
  summarise(Poblacion         = sum(PONDERA),
            Ocupados          = sum(PONDERA[ESTADO == 1]),
            Desocupados       = sum(PONDERA[ESTADO == 2]),
            PEA               = Ocupados + Desocupados,
            Ocupados_demand   = sum(PONDERA[ESTADO == 1 & PP03J ==1]),
            Suboc_demandante  = sum(PONDERA[ESTADO == 1 & INTENSI ==1 & PP03J==1]),
            Suboc_no_demand   = sum(PONDERA[ESTADO == 1 & INTENSI ==1 & PP03J %in% c(2,9)]),
            Subocupados       = Suboc_demandante + Suboc_no_demand ,
# También podemos llamar a las variables entre comillas, incluyendo nombres compuestos
# A su vez, podemos utilizar la variable recién creada en la definción de otra varible
            'Tasa Actividad'                  = PEA/Poblacion,
            'Tasa Empleo'                     = Ocupados/Poblacion,
            'Tasa Desocupacion'               = Desocupados/PEA,
            'Tasa ocupados demandantes'       = Ocupados_demand/PEA,
            'Tasa Subocupación'               = Subocupados/PEA,
            'Tasa Subocupación demandante'    = Suboc_demandante/PEA,
            'Tasa Subocupación no demandante' = Suboc_no_demand/PEA) 
Cuadro_1.1a

##   Poblacion Ocupados Desocupados      PEA Ocupados_demand Suboc_demandante
## 1  27416497 11328384     1149128 12477512         1757938           829323
##   Suboc_no_demand Subocupados Tasa Actividad Tasa Empleo Tasa Desocupacion
## 1          410709     1240032      0.4551096   0.4131959        0.09209592
##   Tasa ocupados demandantes Tasa Subocupación Tasa Subocupación demandante
## 1                 0.1408885        0.09938135                   0.06646541
##   Tasa Subocupación no demandante
## 1                      0.03291594

Una vez que calculamos las tasas, podemos borrar los niveles poblacionales con un select

Cuadro_1.1a <- Cuadro_1.1a %>% 
  select(-c(1:8))

Cuadro_1.1a

##   Tasa Actividad Tasa Empleo Tasa Desocupacion Tasa ocupados demandantes
## 1      0.4551096   0.4131959        0.09209592                 0.1408885
##   Tasa Subocupación Tasa Subocupación demandante
## 1        0.09938135                   0.06646541
##   Tasa Subocupación no demandante
## 1                      0.03291594

Con gather podemos dar vuelta la tabla para que quede como en la publicación

Cuadro_1.1a <- Cuadro_1.1a %>% 
  gather(Tasas, Valor, 1:ncol(.))


Cuadro_1.1a

##                             Tasas      Valor
## 1                  Tasa Actividad 0.45510964
## 2                     Tasa Empleo 0.41319589
## 3               Tasa Desocupacion 0.09209592
## 4       Tasa ocupados demandantes 0.14088850
## 5               Tasa Subocupación 0.09938135
## 6    Tasa Subocupación demandante 0.06646541
## 7 Tasa Subocupación no demandante 0.03291594

En caso de querer expresar los resultados como porcentajes, utilizamos la función sprintf. Para ello debemos utilizar mutate para transformar la columna Valor.

Cuadro_1.1a <- Cuadro_1.1a %>% 
  mutate(Valor = sprintf("%1.1f%%", 100*Valor))

Cuadro_1.1a

##                             Tasas Valor
## 1                  Tasa Actividad 45.5%
## 2                     Tasa Empleo 41.3%
## 3               Tasa Desocupacion  9.2%
## 4       Tasa ocupados demandantes 14.1%
## 5               Tasa Subocupación  9.9%
## 6    Tasa Subocupación demandante  6.6%
## 7 Tasa Subocupación no demandante  3.3%

Nótese que en este caso, para poder añadir el %, la función transforma a la variable en un Character, por ende debe tenerse en cuenta que se pierde la información del numero completo.

4.5.3 Tásas Básicas por Aglomerado

En este caso, podemos ver que simplemente agregando la función group_by podemos replicar el procedimiento para cada uno de los aglomerados. Y a su vez, podemos realizar en un solo paso los arreglos posteriores sobre nuestra tabla.

Cuadro_1.2a <- Individual_t117 %>% 
  group_by(AGLOMERADO) %>% 
  summarise(Poblacion         = sum(PONDERA),
            Ocupados          = sum(PONDERA[ESTADO == 1]),
            Desocupados       = sum(PONDERA[ESTADO == 2]),
            PEA               = Ocupados + Desocupados,
            Ocupados_demand   = sum(PONDERA[ESTADO == 1 & PP03J == 1]),
            Suboc_demandante  = sum(PONDERA[ESTADO == 1 & INTENSI == 1 & PP03J == 1]),
            Suboc_no_demand   = sum(PONDERA[ESTADO == 1 & INTENSI == 1 & PP03J %in% c(2, 9)]),
            Subocupados       = Suboc_demandante + Suboc_no_demand,
            'Tasa Actividad'                  = PEA/Poblacion,
            'Tasa Empleo'                     = Ocupados/Poblacion,
            'Tasa Desocupacion'               = Desocupados/PEA,
            'Tasa ocupados demandantes'       = Ocupados_demand/PEA,
            'Tasa Subocupación'               = Subocupados/PEA,
            'Tasa Subocupación demandante'    = Suboc_demandante/PEA,
            'Tasa Subocupación no demandante' = Suboc_no_demand/PEA)

Cuadro_1.2a[1:10,]

## # A tibble: 10 x 16
##    AGLOMERADO Poblacion Ocupados Desocupados    PEA Ocupados_demand
##         <int>     <int>    <int>       <int>  <int>           <int>
##  1          2    860385   359528       31209 390737           51047
##  2          3    308455   131538       10823 142361           11802
##  3          4   1293438   554680       63370 618050           90662
##  4          5    519469   206044       11279 217323           12185
##  5          6    218671    90908        4181  95089            7247
##  6          7    356298   138937        5928 144865           11973
##  7          8    383974   133077        1867 134944            7660
##  8          9    220357    82286        4639  86925            8478
##  9         10    937900   380621       18830 399451           35043
## 10         12    369673   148114        5956 154070            7086
## # … with 10 more variables: Suboc_demandante <int>, Suboc_no_demand <int>,
## #   Subocupados <int>, `Tasa Actividad` <dbl>, `Tasa Empleo` <dbl>, `Tasa
## #   Desocupacion` <dbl>, `Tasa ocupados demandantes` <dbl>, `Tasa
## #   Subocupación` <dbl>, `Tasa Subocupación demandante` <dbl>, `Tasa
## #   Subocupación no demandante` <dbl>

Cuadro_1.2a <- Cuadro_1.2a %>% 
  select(-c(2:9)) %>%    # Eliminamos las variables de nivel
  left_join(.,Aglom) %>% # Agregamos el nombre de los aglomerados, que teniamos en otro DF
  select(Nom_Aglo,everything(.),-AGLOMERADO) #Eliminamos el código de los aglomerados

## Joining, by = "AGLOMERADO"

Cuadro_1.2a[1:10,]

## # A tibble: 10 x 8
##    Nom_Aglo `Tasa Actividad` `Tasa Empleo` `Tasa Desocupac…
##    <chr>               <dbl>         <dbl>            <dbl>
##  1 " Gran …            0.454         0.418           0.0799
##  2 " Bahía…            0.462         0.426           0.0760
##  3 " Gran …            0.478         0.429           0.103 
##  4 " Gran …            0.418         0.397           0.0519
##  5 " Gran …            0.435         0.416           0.0440
##  6 " Posad…            0.407         0.390           0.0409
##  7 " Gran …            0.351         0.347           0.0138
##  8 " Cdro.…            0.394         0.373           0.0534
##  9 " Gran …            0.426         0.406           0.0471
## 10 " Corri…            0.417         0.401           0.0387
## # … with 4 more variables: `Tasa ocupados demandantes` <dbl>, `Tasa
## #   Subocupación` <dbl>, `Tasa Subocupación demandante` <dbl>, `Tasa
## #   Subocupación no demandante` <dbl>

4.5.4 Ejercicio para 2 trimestres

A continuación se detallaran los procedimientos necesarios para realizar apilar las bases de dos o más trimestres y calcular de manera conjunta indicadores para cada uno de ellos.
Levantamos la base del 4to Trimestre de 2016

Individual_t416 <-
  read.table("Fuentes/usu_individual_t416.txt",
  sep = ";",
  dec = ",",
  header = TRUE,
  fill = TRUE )

4.5.4.1 Select - variables de interés

Para este tipo de ejercicios, donde el volumen de datos es relativamente grande, puede resultar útil restringir la base a nuestras variables de interés para que el procesamiento no sea tan costoso. Para ello, creando previamente un vector de strings con los nombres de las variables, podemos utilizar de la siguiente manera la función select para quedarnos sólamente con las mismas.

Variables_interes <- c("ANO4","TRIMESTRE","ESTADO","PONDERA","REGION","AGLOMERADO")

Basesita_t416 <- Individual_t416 %>% select(Variables_interes)
Basesita_t117 <- Individual_t117 %>% select(Variables_interes)

4.5.4.2 bind_rows

La función bind_rows nos permitirá apilar dos bases de datos en un solo dataframe. La misma evalua los nombres de las variables de cada una de las bases para adjuntar el contenido de ambas en las variables comunes. En caso de que una de las bases tuviera una variable que la otra no, se conservaran dichos datos, quedando como NA los valores para la otra base.

Union_Bases <- bind_rows(Basesita_t416,Basesita_t117)
##alternativamente
Union_Bases <- Basesita_t416 %>% 
  bind_rows(Basesita_t117)

Una vez que contamos con nuestra unión de las bases de 2 o más trimestres, procederemos a realizar los cálculos que deseamos agrupando por las variables ANO4 y TRIMESTRE. Esto nos permitirá realizar estimaciones para sendos períodos al mismo tiempo. Por ejemplo, a continuación tomamos parte del código desarrollado anteriormente para calcular las tasas de Actividad, Empleo, y Desocupación.

Tasas_dos_trimestres <- Union_Bases %>% 
  group_by(ANO4,TRIMESTRE) %>% 
  summarise(Poblacion         = sum(PONDERA),
            Ocupados          = sum(PONDERA[ESTADO == 1]),
            Desocupados       = sum(PONDERA[ESTADO == 2]),
            PEA               = Ocupados + Desocupados,
            'Tasa Actividad'                  = PEA/Poblacion,
            'Tasa Empleo'                     = Ocupados/Poblacion,
            'Tasa Desocupacion'               = Desocupados/PEA) %>% 
  select(1:2,7:ncol(.))

Tasas_dos_trimestres

## # A tibble: 2 x 5
## # Groups:   ANO4 [2]
##    ANO4 TRIMESTRE `Tasa Actividad` `Tasa Empleo` `Tasa Desocupacion`
##   <int>     <int>            <dbl>         <dbl>               <dbl>
## 1  2016         4            0.453         0.419              0.0756
## 2  2017         1            0.455         0.413              0.0921

4.5.4.3 Exportar resultados a Excel

Como vieramos en la clase 1, la función write.xlsx de la libreria openxlsx nos permite exportar los dos dataframes a un mismo archivo. Cabe aclarar que existen numerosas funciones y librerías alternativas para exportar resultados a un excel. En este caso, optamos por openxlsx ya que resulta una de las más sencillas para exportar rapidamente los resultados. Otras librerías permiten también dar formato a las tablas que se exportan, definir si deseamos sobreescribir archivos en caso de que ya existan, etc.

Lista_a_exportar <- list("Cuadro 1.1" = Cuadro_1.1a,
                      "Cuadro 1.2" = Cuadro_1.2a)

# write.xlsx(Lista_a_exportar,"../Resultados/Informe Mercado de Trabajo.xlsx")

4.6 Ejercicios para practicar

Levantar la última base individual de EPH
Crear un vector llamado Variables que contenga los nombres de las variables de interés que refieren a las siguientes características: - Edad, Sexo, Ingreso de la ocupación principal, Categoría ocupacional, ESTADO, PONDERA y PONDIH
Acotar la Base únicamente a las variables de interés, utilizando el vector Variables
Calcular las tasas de actividad, empleo y desempleo según sexo, para jóvenes entre 18 y 35 años
Calcular el salario promedio por sexo, para dos grupos de edad: 18 a 35 años y 36 a 70 años. (Recordatorio: La base debe filtrarse para contener únicamente OCUPADOS ASALARIADOS)
Grabar los resultados en un excel

4.6.1 Ejercicios de tarea

Replicar el cálculo de las tasas logradas en clase para distintos trimestres, levantando las bases desde el segundo trimestre 2016 hasta la última.
- Tips: juntar las bases con el comando bind_rows()
- Probar con gather() y spread() como quedan mejor los resultados
Grabar los resultados en un excel