A lo largo de esta clase, trabajaremos con el paquete tidyverse. El mismo agrupa una serie de paquetes que tienen una misma lógica en su diseño y por ende funcionan en armonía.
Entre ellos, usaremos principalmente dplyr y tidyr para realizar transformaciones sobre nuestro set de datos. En una futura clase utilizaremos ggplot para realizar gráficos.

A continuación cargamos la librería a nuestro ambiente. Para ello debe estar previamente instalada en nuestra pc.

library(tidyverse)

Para mostrar el funcionamiento básico de tidyverse utilizaremos a modo de ejemplo datos del Informe de Mercado de Trabajo del INDEC.

INDICADOR <- c("Tasa de Actividad", "Tasa de Empleo", "Tasa de Desocupación",
               "Tasa de Actividad", "Tasa de Empleo", "Tasa de Desocupación",
               "Tasa de Actividad", "Tasa de Empleo", "Tasa de Desocupación")

FECHA <-     c("2018.3T", "2018.3T", "2018.3T",
               "2018.4T", "2018.4T", "2018.4T",
               "2019.1T", "2019.1T", "2019.1T")

TASA <-      c(46.7, 42.5, 9,
               46.5, 42.2, 9.1, 
               47,   42.3, 10.1)

Datos <- data.frame(INDICADOR, FECHA, TASA)
Datos

Dplyr

El caracter principal para utilizar este paquete es %>% , pipe (de tubería).

Los %>% toman el set de datos a su izquierda, y los transforman mediante los comandos a su derecha, en los cuales los elementos de la izquierda están implícitos. En otros términos:

\(f(x,y)\) es equivalente a \(x\) %>% \(f(.,y)\)

Veamos las principales funciones que pueden utilizarse con la lógica de este paquete:

glimpse

Permite ver la estructura de la tabla. Nos muestra:

  • número de filas
  • número de columnas
  • nombre de las columnas
  • tipo de dato de cada columna
  • las primeras observaciones de la tabla
glimpse(Datos)

filter

Permite filtrar la tabla de acuerdo al cumplimiento de condiciones lógicas.

Datos %>% 
  filter(TASA > 10 , INDICADOR == "Tasa de Desocupación")

Nótese que en este caso al separar con una , las condiciones se exige el cumplimiento de ambas. En caso de desear que se cumpla alguna de las condiciones debe utilizarse el caracter |.

Datos %>% 
  filter(TASA > 10 | INDICADOR == "Tasa de Desocupación")

rename

Permite renombrar una columna de la tabla. Funciona de la siguiente manera:

Data %>% rename(nuevo_nombre = viejo_nombre)

Datos %>% 
  rename(Periodo = FECHA)

Nótese que, a diferencia del ejemplo de la función filter donde utilizábamos == para comprobar una condición lógica, en este caso se utiliza sólo un = ya que lo estamos haciendo es asignar un nombre.

mutate

Permite agregar una variable a la tabla (especificando el nombre que tomará ésta), que puede ser el resultado de operaciones sobre otras variables de la misma tabla.

En caso de especificar el nombre de una columna existente, el resultado de la operación realizada “sobre-escribirá” la información de la columna con dicho nombre.

Datos <- Datos %>% 
  mutate(PROPORCION = TASA / 100)

Datos

case_when

Permite definir una variable, de forma tal que tome un valor particular para cada condición establecida. En caso de no cumplir con ninguna de las condiciones establecidas, la variable tomará valor NA.
La sintaxis de la función es:
case_when(condicion lógica1 ~ valor asignado1)

Datos <- Datos %>% 
  mutate(CODIGO = case_when(INDICADOR == "Tasa de Actividad"    ~ "ACT",
                            INDICADOR == "Tasa de Empleo"       ~ "EMP",
                            INDICADOR == "Tasa de Desocupación" ~ "DES"))

Datos

Si querémos asignar un valor a todo lo que no cumple ningúna de las condiciones anteriores, podemos poner TRUE ~ valor

select

Permite especificar la serie de columnas que se desea conservar de un DataFrame. También pueden especificarse las columnas que se desean descartar (agregándoles un - adelante). Muy útil para agilizar el trabajo en bases de datos de gran tamaño.

Datos2 <- Datos %>% 
  select(CODIGO, FECHA, PROPORCION)
Datos2

Datos <- Datos %>% 
  select(-c(PROPORCION, CODIGO))
Datos

arrange

Permite ordenar la tabla según los valores de determinada/s variable/s. Es útil cuando luego deben hacerse otras operaciones que requieran del ordenamiento de la tabla, o para mostrar resultados de forma ordenada.

Datos <- Datos %>% 
  arrange(INDICADOR, FECHA)

Datos

summarise

Crea una nueva tabla que resuma la información original. Para ello, definimos las variables de resumen y las formas de agregación.

Datos %>% 
  filter(INDICADOR == "Tasa de Desocupación") %>% 
  summarise(INDICE_MAX = max(TASA),
            INDICE_MIN = min(TASA),
            INDICE_PROM = mean(TASA))

group_by

Esta función permite realizar operaciones de forma agrupada. Lo que hace la función es “separar” a la tabla según los valores de la variable indicada y realizar las operaciones que se especifican a continuación, de manera independiente para cada una de las “subtablas”. En nuestro ejemplo, podría ser útil para calcular el promedio de las tasas por INDICADOR.

Datos %>% 
  group_by(INDICADOR) %>%
  summarise(INDICE_PROM = mean(TASA))

Joins

Otra implementación muy importante del paquete dplyr son las funciones para unir tablas (joins).

left_join

Veamos un ejemplo de la función left_join (una de las más utilizadas en la práctica).
Para ello crearemos previamente un Dataframe que contenga las cantidades de población total y población económicamente activa para cada uno de los períodos del Dataframe Datos.

Poblaciones <- data.frame(FECHA = c("2018.3T", "2018.4T", "2019.1T"),
                          POBLACION_miles = c(27842, 27914, 28261),
                          PEA_miles = c(12990, 12979, 13285))

Poblaciones

Unimos nuestras dos tablas. La siguiente forma de realizarlo es equivalente a:
Datos_join <- left_join(Datos, Poblaciones, by = "FECHA")

Datos_join <- Datos %>% 
  left_join(Poblaciones, by = "FECHA")

Datos_join

Finalmente, podemos calcular la cantidad de personas desocupadas en cada uno de los períodos con los que contamos.

Datos_join %>% 
  filter(INDICADOR == "Tasa de Desocupación") %>% 
  group_by(FECHA) %>% 
  summarise(DESOCUP_miles = round(TASA/100 * PEA_miles, 0))

Tidyr

El paquete tidyr está pensado para facilitar el emprolijamiento de los datos.

Gather es una función que nos permite pasar los datos de forma horizontal a una forma vertical.

spread es una función que nos permite pasar los datos de forma vertical a una forma horizontal.

# Utilizamos un conjunto de datos que viene con la librería datasets
library(datasets)

head(iris)
iris <- iris %>% 
  mutate(id = 1:nrow(.)) %>%  # le agrego un ID
  select(id, everything())    # lo acomodo para que el id este primero. 

head(iris)

Gather y Spread

iris_vertical <- iris %>% gather(., # el . llama a lo que esta atras del %>% 
                                 key   = Variables,
                                 value = Valores,
                                 2:5) #le indico qué columnas juntar
head(iris_vertical)

Podemos deshacer el gather con un Spread

iris_horizontal <- iris_vertical %>%
  spread(. ,
         key   = Variables, # la llave es la variable que va a dar los nombres de columna
         value = Valores) # los valores con que se llenan las celdas

head(iris_horizontal)

Lubridate

El paquete lubridate está pensado para trabajar con los datos tipo fecha (date) o fecha-hora (datetime) para cambiarles el formato, realizar operaciones y extraer información

library(lubridate)

Attaching package: ‘lubridate’

The following object is masked from ‘package:base’:

    date

Cambio de formato

Existe una gran cantidad de funciones para realizar esto. La idea general es poder llevar los objetos datetime a un formato común compuesto de los elementos: año, mes, día, hora, minuto y segundo (también se puede setear el huso horario)

fecha  <- "04/12/92 17:35:16"
fecha
[1] "04/12/92 17:35:16"

Con la función dmy_hms podemos convertir este string a una fecha: estamos indicando que el formato de la fecha es día(d), mes(m), año(y), hora(h), minuto(m) y segundo(s).

fecha  <- dmy_hms(fecha)
fecha
[1] "1992-12-04 17:35:16 UTC"

Muchas funciones de lubridate operan con esta misma lógica.

Otra función para realizar un cambio de formato es parse_date_time. Permite construir objetos datetime a partir de datos más complejos, como por ejemplo cuando aparece el nombre del mes y el año.

En el parámetro x pasamos el dato de la fecha y en el parámetro orders especificamos el orden en el cual se encuentra la información de la fecha.

fecha2  <- "Dec-92"
fecha2 <- parse_date_time(fecha2, orders = 'my')
fecha2
[1] "1992-12-01 UTC"

Extracción de información

Existen muchas funciones muy sencillas para extraer información de un objeto datetime. Algunas son:

year(fecha)  # Obtener el año
[1] 1992
month(fecha) # Obtener el mes
[1] 12
day(fecha)   # Obtener el día
[1] 4
wday(fecha, label = TRUE) # Obtener el nombre del día
[1] vie
Levels: dom < lun < mar < mié < jue < vie < sáb
hour(fecha) # Obtener la hora
[1] 17

Operaciones

Podemos sumar o restarle cualquier período de tiempo a un objeto datetime

# Sumo dos días 
fecha + days(2)
[1] "1992-12-06 17:35:16 UTC"
# Resto 1 semana y dos horas
fecha - (weeks(1) + hours(2))
[1] "1992-11-27 15:35:16 UTC"
