fuente: https://github.com/DiegoKoz/discursos_presidenciales

Consigna general: realizar los mismos ejercicios de la práctica guiada (Wordclowd y Topic Modelling) para el dataset de discrusos presidenciales que se encuentra en la carpeta fuentes.

library(tidyverse)
library(tm)
library(wordcloud2)
library(topicmodels)
library(LDAvis)
library(tsne)


df <- read_rds('../fuentes/discursos_presidenciales.rds')
df

1. Limpieza y organización de la información

1.a Crear un objeto Corpus de la librería tm

#

1.b Limpiar el Corpus con tm_map

  • Pasar a minúscula
  • Eliminar puntuación
  • Eliminar numeros
  • Eliminar stopwords
#

Inspeccionar el corpus y revisar si quedaron Caracteres especiales que deban ser eliminados. En caso de que así fuera eliminarlos con tm_map y content_transformer(function(x) str_remove_all(x, pattern = ))

#

1.c Crear una matriz Documento-término con DocumentTermMatrix

#

2. Wordcloud

2.a Buscar los términos más frecuentes con findMostFreqTerms

#

2.b Crear un dataframe con las palabras más frecuentes

#

2.c Crear una nube de palabras con wordcloud2

#

3. Topic Modelling

3.1 eliminar los documentos vacíos de la matriz documento-término

#

3.2 Entrenar un modelo de LDA con la función LDA

#

3.3 Recuperar los diez términos más frecuentes de cada Tópico con terms

#
LS0tCnRpdGxlOiBNaW5lcsOtYSBkZSBUZXh0b3MKb3V0cHV0OgogIGh0bWxfbm90ZWJvb2s6CiAgICB0b2M6IHllcwogICAgdG9jX2Zsb2F0OiB5ZXMKZGF0ZTogIiIKc3VidGl0bGU6IFByw6FjdGljYSBpbmRlcGVuZGllbnRlCi0tLQoKCmZ1ZW50ZTogaHR0cHM6Ly9naXRodWIuY29tL0RpZWdvS296L2Rpc2N1cnNvc19wcmVzaWRlbmNpYWxlcyAKCj4gQ29uc2lnbmEgZ2VuZXJhbDogcmVhbGl6YXIgbG9zIG1pc21vcyBlamVyY2ljaW9zIGRlIGxhIHByw6FjdGljYSBndWlhZGEgKFdvcmRjbG93ZCB5IFRvcGljIE1vZGVsbGluZykgcGFyYSBlbCBkYXRhc2V0IGRlIGRpc2NydXNvcyBwcmVzaWRlbmNpYWxlcyBxdWUgc2UgZW5jdWVudHJhIGVuIGxhIGNhcnBldGEgZnVlbnRlcy4KCmBgYHtyIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9CmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KHRtKQpsaWJyYXJ5KHdvcmRjbG91ZDIpCmxpYnJhcnkodG9waWNtb2RlbHMpCmxpYnJhcnkoTERBdmlzKQpsaWJyYXJ5KHRzbmUpCgoKZGYgPC0gcmVhZF9yZHMoJy4uL2Z1ZW50ZXMvZGlzY3Vyc29zX3ByZXNpZGVuY2lhbGVzLnJkcycpCmRmCmBgYAoKCiMjIyAxLiBMaW1waWV6YSB5IG9yZ2FuaXphY2nDs24gZGUgbGEgaW5mb3JtYWNpw7NuCgojIyMjIDEuYSBDcmVhciB1biBvYmpldG8gQ29ycHVzIGRlIGxhIGxpYnJlcsOtYSBgdG1gCgpgYGB7cn0KIwpgYGAKCiMjIyMgMS5iIExpbXBpYXIgZWwgQ29ycHVzIGNvbiBgdG1fbWFwYAoKLSBQYXNhciBhIG1pbsO6c2N1bGEKLSBFbGltaW5hciBwdW50dWFjacOzbgotIEVsaW1pbmFyIG51bWVyb3MKLSBFbGltaW5hciBzdG9wd29yZHMKCmBgYHtyfQojCmBgYAoKSW5zcGVjY2lvbmFyIGVsIGNvcnB1cyB5IHJldmlzYXIgc2kgcXVlZGFyb24gQ2FyYWN0ZXJlcyBlc3BlY2lhbGVzIHF1ZSBkZWJhbiBzZXIgZWxpbWluYWRvcy4gRW4gY2FzbyBkZSBxdWUgYXPDrSBmdWVyYSBlbGltaW5hcmxvcyBjb24gYHRtX21hcGAgeSBgY29udGVudF90cmFuc2Zvcm1lcihmdW5jdGlvbih4KSBzdHJfcmVtb3ZlX2FsbCh4LCBwYXR0ZXJuID0gKSlgCgpgYGB7cn0KIwpgYGAKCiMjIyMgMS5jIENyZWFyIHVuYSBtYXRyaXogRG9jdW1lbnRvLXTDqXJtaW5vIGNvbiBgRG9jdW1lbnRUZXJtTWF0cml4YAoKYGBge3J9CiMKYGBgCgojIyMgMi4gV29yZGNsb3VkCgojIyMjIDIuYSBCdXNjYXIgbG9zIHTDqXJtaW5vcyBtw6FzIGZyZWN1ZW50ZXMgY29uIGBmaW5kTW9zdEZyZXFUZXJtc2AKCgpgYGB7cn0KIwpgYGAKCiMjIyMgMi5iIENyZWFyIHVuIGRhdGFmcmFtZSBjb24gbGFzIHBhbGFicmFzIG3DoXMgZnJlY3VlbnRlcwoKYGBge3J9CiMKYGBgCgojIyMjIDIuYyBDcmVhciB1bmEgbnViZSBkZSBwYWxhYnJhcyBjb24gYHdvcmRjbG91ZDJgCgpgYGB7cn0KIwpgYGAKCgojIyMgMy4gVG9waWMgTW9kZWxsaW5nCgojIyMjIDMuMSAgZWxpbWluYXIgbG9zIGRvY3VtZW50b3MgdmFjw61vcyBkZSBsYSBtYXRyaXogZG9jdW1lbnRvLXTDqXJtaW5vCgpgYGB7cn0KIwpgYGAKCiMjIyMgMy4yIEVudHJlbmFyIHVuIG1vZGVsbyBkZSBMREEgY29uIGxhIGZ1bmNpw7NuIGBMREFgCgpgYGB7cn0KIwpgYGAKCiMjIyMgMy4zIFJlY3VwZXJhciBsb3MgZGlleiB0w6lybWlub3MgbcOhcyBmcmVjdWVudGVzIGRlIGNhZGEgVMOzcGljbyBjb24gYHRlcm1zYAoKYGBge3J9CiMKYGBgCgo=