Presentación
En los últimos años se han difundido muchas herramientas estadísticas novedosas para el análisis de información socioeconómica y geográfica. En particular el software denominado “R”, por tratarse de un software libre, se extiende cada vez más en diferentes disciplinas y recibe el aporte de investigadores e investigadoras en todo el mundo, multiplicando sistemáticamente sus capacidades.
Este programa se destaca, entre otras cosas, por su capacidad de trabajar con grandes volúmenes de información, utilizar múltiples bases de datos en simultáneo, generar reportes, realizar gráficos a nivel de publicación y por su comunidad de usuarios que publican sus sintaxis y comparten sus problemas, hecho que potencia la capacidad de consulta y de crecimiento. A su vez, la expresividad del lenguaje permite diseñar funciones específicas que permiten optimizar de forma personalizada el trabajo cotidiano con R.
Objetivos del curso
El presente Taller tiene como objetivo principal introducir a los participantes en la ciencia de datos, sobre la base de la utilización del lenguaje R aplicado procesamiento de diferentes bases de datos provistas por el programa de Gobierno Abierto y la Encuesta Permanente de Hogares (EPH) - INDEC. Se apunta a brindar las herramientas necesarias para la gestión de la información, presentación de resultados y algunas técnicas de modelado de datos, de forma tal que los participantes puedan luego avanzar por su cuenta a técnicas más avanzadas.
Librerias a instalar
install.packages(c('tidyverse', 'openxlsx', 'ggplot2', 'glue', 'GGally', 'ggridges', 'treemapify', 'esquisse', 'ggthemes', 'ggrepel', 'ggalt', 'kableExtra', 'fs', 'sf', 'purrr', 'rmarkdown', 'modelr', 'plotly', 'plot3D', 'viridis', 'lubridate', 'gapminder', 'datos', 'eph', 'expss', 'rtweet', 'tm', 'wordcloud2'))
Materiales para las clases
Ejectuar la siguiente linea de código en R
usethis::use_course('https://github.com/DiegoKoz/intro_ds/archive/master.zip')
O alternativamente descargar el siguiente archivo:
Cheatsheet gráficos
Notas de clase
Temario
Eje 1. Programación en R
clase 1: Introducción al entorno R:
clase 2: Tidyverse:
clase 3: Programación funcional
Eje 2. Presentación de resultados
clase 4: Visualización de la información
clase 5: Documentación en R
clase 6: Shiny
Eje 3. Estadística
clase 7: Estadística descriptiva
clase 8: Correlación y Modelo Lineal
Eje 4. Clases temáticas
clase 9: Análisis de encuestas
clase 10: Text Mining
clase 11: Mapas
Bibliografía ampliatoria
- Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. “ O’Reilly Media, Inc.”. https://es.r4ds.hadley.nz/
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. New York: springer. http://faculty.marshall.usc.edu/gareth-james/ISL/
- Wickham, Hadley. ggplot2: elegant graphics for data analysis. Springer, 2016. https://ggplot2-book.org/
- Wickham, Hadley. Mastering Shiny. 2019 https://mastering-shiny.org/