Datos provistos por Properati Argentina
INSTRUCCIONES
Deberán realizar el trabajo en un RNotebook publicado en RPubs.
El RNotebook debe:
- Tener el siguiente nombre: eea2019_tp1_(apellido)_(nombre)
- Mostrar todo el código que escriban. NO USAR
echo=FALSE
- Ser ordenado de acuerdo a las consignas propuestas
Una vez terminado el notebook deberán subirlo a RPubs e indicar el link en el archivo que les compartiremos.
CRITERIOS DE EVALUACION
- Explicar los procedimientos y decisiones en el texto
- Comentar el código
- Llegar a los resultados esperados
- Recomendamos fuertemente usar las funciones de
tidyverse
En caso que los resultados no sean los esperados y no logremos identificar las fuentes de error podemos pedirles que nos compartan el archivo .Rmd y ciertas bases de datos que vayan generando.
CONSIGNAS
- Preparacion de los datos (I)
- Leer el archivo ar_properties.csv y mostrar su estructura
- Quedarse con aquellos registros que:
- Pertenecen a Argentina y Capital Federal
- Cuyo precio esta en dolares (USD)
- El tipo de propiedad sea: Departamento, PH o Casa
- El tipo de operacion sea Venta
- Seleccionar las variables id, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, price y property_type
Deberian llegar a un dataset con 61905 observaciones y 9 variables
- Analisis exploratorios (I)
- Obtener la cantidad de valores unicos y de valores faltantes (NAs) para cada una de estas variables
- Obtener la matriz de correlacion para las variables numericas. Pista: usen ‘complete.obs’ para poder omitir los valores faltantes.
- Preparacion de los datos (II)
- En el punto 2 deberian haber encontrado que la variable bedrooms presenta una alta proporción de valores faltantes y que presenta una fuerte correlacion con la variable rooms. Por lo tanto, vamos a eliminarla.
- Eliminar todos los registros que presentan valores faltantes
Deberian llegar a un dataset con 51210 observaciones y 8 variables
- Analisis exploratorios (II)
- Obtener estadisticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) y realizar un histograma de la variable
- Obtener estadisticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) por cada tipo de propiedad.
- Realizar un grafico de boxplot de la variable precio por tipo de propiedad
- Realizar un correlagrama usando
GGAlly
- Outliers
- Eliminar los outliers de la variable precio con algún criterio que elijan: puede ser por valores de corte, eliminar el x% a izquierda y derecha,etc.
- Analisis exploratorios (III)
- Repetir los 4 análisis exploratorios realizados en el punto 4 y realizar unos breves comentarios sobre los cambios que encontraron
- Modelo lineal
- Realizar un modelo lineal simple para explicar el precio en función de las habitaciones (rooms) y otro modelo que explique el precio en función de la superficie total (surface_total)
- Usar la función
summary()
para obtener informacion de ambos modelos. Explicar los valores de los coeficientes estimados.
- ¿Cuál modelo usarían para predecir el precio? ¿Por qué?
LS0tCnRpdGxlOiAiVFAgMTogQW5hbGlzaXMgZXhwbG9yYXRvcmlvIGUgSW50cm9kdWNjaW9uIGEgUmVncmVzacOzbiBsaW5lYWwiCm91dHB1dDogaHRtbF9ub3RlYm9vawotLS0KCkRhdG9zIHByb3Zpc3RvcyBwb3IgW1Byb3BlcmF0aSBBcmdlbnRpbmFdKGh0dHBzOi8vd3d3LnByb3BlcmF0aS5jb20uYXIpCgojIyBJTlNUUlVDQ0lPTkVTCgpEZWJlcsOhbiByZWFsaXphciBlbCB0cmFiYWpvIGVuIHVuICoqUk5vdGVib29rKiogcHVibGljYWRvIGVuIFtSUHVic10oaHR0cDovL3JwdWJzLmNvbS8pLgoKRWwgKipSTm90ZWJvb2sqKiBkZWJlOgoKKiBUZW5lciBlbCBzaWd1aWVudGUgbm9tYnJlOiBlZWEyMDE5X3RwMV8oYXBlbGxpZG8pXyhub21icmUpCiogTW9zdHJhciB0b2RvIGVsIGPDs2RpZ28gcXVlIGVzY3JpYmFuLiBOTyBVU0FSIGBlY2hvPUZBTFNFYAoqIFNlciBvcmRlbmFkbyBkZSBhY3VlcmRvIGEgbGFzIGNvbnNpZ25hcyBwcm9wdWVzdGFzCgpVbmEgdmV6IHRlcm1pbmFkbyBlbCBub3RlYm9vayBkZWJlcsOhbiBzdWJpcmxvIGEgUlB1YnMgZSBpbmRpY2FyIGVsIGxpbmsgZW4gZWwgYXJjaGl2byBxdWUgbGVzIGNvbXBhcnRpcmVtb3MuCgojIyBDUklURVJJT1MgREUgRVZBTFVBQ0lPTgoKKiBFeHBsaWNhciBsb3MgcHJvY2VkaW1pZW50b3MgeSBkZWNpc2lvbmVzIGVuIGVsIHRleHRvCiogQ29tZW50YXIgZWwgY8OzZGlnbwoqIExsZWdhciBhIGxvcyByZXN1bHRhZG9zIGVzcGVyYWRvcwoqIFJlY29tZW5kYW1vcyBmdWVydGVtZW50ZSB1c2FyIGxhcyBmdW5jaW9uZXMgZGUgYHRpZHl2ZXJzZWAKCkVuIGNhc28gcXVlIGxvcyByZXN1bHRhZG9zIG5vIHNlYW4gbG9zIGVzcGVyYWRvcyB5IG5vIGxvZ3JlbW9zIGlkZW50aWZpY2FyIGxhcyBmdWVudGVzIGRlIGVycm9yIHBvZGVtb3MgcGVkaXJsZXMgcXVlIG5vcyBjb21wYXJ0YW4gZWwgYXJjaGl2byAuUm1kIHkgY2llcnRhcyBiYXNlcyBkZSBkYXRvcyBxdWUgdmF5YW4gZ2VuZXJhbmRvLgoKIyMgQ09OU0lHTkFTCgoxKSBQcmVwYXJhY2lvbiBkZSBsb3MgZGF0b3MgKEkpCiAgICBhKSBMZWVyIGVsIGFyY2hpdm8gKmFyX3Byb3BlcnRpZXMuY3N2KiB5IG1vc3RyYXIgc3UgZXN0cnVjdHVyYQogICAgYikgUXVlZGFyc2UgY29uIGFxdWVsbG9zIHJlZ2lzdHJvcyBxdWU6CiAgICAgICAgaSkgUGVydGVuZWNlbiBhIEFyZ2VudGluYSB5IENhcGl0YWwgRmVkZXJhbAogICAgICAgIGlpKSBDdXlvIHByZWNpbyBlc3RhIGVuIGRvbGFyZXMgKFVTRCkKICAgICAgICBpaWkpIEVsIHRpcG8gZGUgcHJvcGllZGFkIHNlYTogRGVwYXJ0YW1lbnRvLCBQSCBvIENhc2EKICAgICAgICBpdikgRWwgdGlwbyBkZSBvcGVyYWNpb24gc2VhIFZlbnRhCiAgICBjKSBTZWxlY2Npb25hciBsYXMgdmFyaWFibGVzICoqaWQqKiwgKipsMyoqLCAqKnJvb21zKiosICoqYmVkcm9vbXMqKiwgKipiYXRocm9vbXMqKiwgKipzdXJmYWNlX3RvdGFsKiosICoqc3VyZmFjZV9jb3ZlcmVkKiosICoqcHJpY2UqKiB5ICoqcHJvcGVydHlfdHlwZSoqCiAgCkRlYmVyaWFuIGxsZWdhciBhIHVuIGRhdGFzZXQgY29uIDYxOTA1IG9ic2VydmFjaW9uZXMgeSA5IHZhcmlhYmxlcwogCjIpIEFuYWxpc2lzIGV4cGxvcmF0b3Jpb3MgKEkpCiAgICBhKSBPYnRlbmVyIGxhIGNhbnRpZGFkIGRlIHZhbG9yZXMgdW5pY29zIHkgZGUgdmFsb3JlcyBmYWx0YW50ZXMgKE5BcykgcGFyYSBjYWRhIHVuYSBkZSBlc3RhcyB2YXJpYWJsZXMKICAgIGIpIE9idGVuZXIgbGEgbWF0cml6IGRlIGNvcnJlbGFjaW9uIHBhcmEgbGFzIHZhcmlhYmxlcyBudW1lcmljYXMuIFBpc3RhOiB1c2VuICdjb21wbGV0ZS5vYnMnIHBhcmEgcG9kZXIgb21pdGlyIGxvcyB2YWxvcmVzIGZhbHRhbnRlcy4KICAKMykgUHJlcGFyYWNpb24gZGUgbG9zIGRhdG9zIChJSSkKICAgIGEpIEVuIGVsIHB1bnRvIDIgZGViZXJpYW4gaGFiZXIgZW5jb250cmFkbyBxdWUgbGEgdmFyaWFibGUgKipiZWRyb29tcyoqIHByZXNlbnRhIHVuYSBhbHRhIHByb3BvcmNpw7NuIGRlIHZhbG9yZXMgZmFsdGFudGVzIHkgcXVlIHByZXNlbnRhIHVuYSBmdWVydGUgY29ycmVsYWNpb24gY29uIGxhIHZhcmlhYmxlICoqcm9vbXMqKi4gUG9yIGxvIHRhbnRvLCB2YW1vcyBhIGVsaW1pbmFybGEuCiAgICBiKSBFbGltaW5hciB0b2RvcyBsb3MgcmVnaXN0cm9zIHF1ZSBwcmVzZW50YW4gdmFsb3JlcyBmYWx0YW50ZXMKICAKRGViZXJpYW4gbGxlZ2FyIGEgdW4gZGF0YXNldCBjb24gNTEyMTAgb2JzZXJ2YWNpb25lcyB5IDggdmFyaWFibGVzCiAgCjQpIEFuYWxpc2lzIGV4cGxvcmF0b3Jpb3MgKElJKQogICAgYSkgT2J0ZW5lciBlc3RhZGlzdGljYXMgZGVzY3JpcHRpdmFzIHBhcmEgbGEgdmFyaWFibGUgcHJlY2lvIChjdWFydGlsZXMsIHByb21lZGlvLCBtaW5pbW8geSBtYXhpbW8pIHkgcmVhbGl6YXIgdW4gaGlzdG9ncmFtYSBkZSBsYSB2YXJpYWJsZQogICAgYikgT2J0ZW5lciBlc3RhZGlzdGljYXMgZGVzY3JpcHRpdmFzIHBhcmEgbGEgdmFyaWFibGUgcHJlY2lvIChjdWFydGlsZXMsIHByb21lZGlvLCBtaW5pbW8geSBtYXhpbW8pIHBvciBjYWRhIHRpcG8gZGUgcHJvcGllZGFkLiAKICAgIGMpIFJlYWxpemFyIHVuIGdyYWZpY28gZGUgYm94cGxvdCBkZSBsYSB2YXJpYWJsZSBwcmVjaW8gcG9yIHRpcG8gZGUgcHJvcGllZGFkCiAgICBkKSBSZWFsaXphciB1biBjb3JyZWxhZ3JhbWEgdXNhbmRvIGBHR0FsbHlgCiAgCjUpIE91dGxpZXJzCiAgICBhKSBFbGltaW5hciBsb3Mgb3V0bGllcnMgZGUgbGEgdmFyaWFibGUgKipwcmVjaW8qKiBjb24gYWxnw7puIGNyaXRlcmlvIHF1ZSBlbGlqYW46IHB1ZWRlIHNlciBwb3IgdmFsb3JlcyBkZSBjb3J0ZSwgZWxpbWluYXIgZWwgeCUgYSBpenF1aWVyZGEgeSBkZXJlY2hhLGV0Yy4KICAgIAo2KSBBbmFsaXNpcyBleHBsb3JhdG9yaW9zIChJSUkpCiAgICBhKSBSZXBldGlyIGxvcyA0IGFuw6FsaXNpcyBleHBsb3JhdG9yaW9zIHJlYWxpemFkb3MgZW4gZWwgcHVudG8gNCB5IHJlYWxpemFyIHVub3MgYnJldmVzIGNvbWVudGFyaW9zIHNvYnJlIGxvcyBjYW1iaW9zIHF1ZSBlbmNvbnRyYXJvbgogIAo3KSBNb2RlbG8gbGluZWFsCiAgICBhKSBSZWFsaXphciB1biBtb2RlbG8gbGluZWFsIHNpbXBsZSBwYXJhIGV4cGxpY2FyIGVsIHByZWNpbyBlbiBmdW5jacOzbiBkZSBsYXMgaGFiaXRhY2lvbmVzIChyb29tcykgeSBvdHJvIG1vZGVsbyBxdWUgZXhwbGlxdWUgZWwgcHJlY2lvIGVuIGZ1bmNpw7NuIGRlIGxhIHN1cGVyZmljaWUgdG90YWwgKHN1cmZhY2VfdG90YWwpCiAgICBiKSBVc2FyIGxhIGZ1bmNpw7NuIGBzdW1tYXJ5KClgIHBhcmEgb2J0ZW5lciBpbmZvcm1hY2lvbiBkZSBhbWJvcyBtb2RlbG9zLiBFeHBsaWNhciBsb3MgdmFsb3JlcyBkZSBsb3MgY29lZmljaWVudGVzIGVzdGltYWRvcy4KICAgIGMpIMK/Q3XDoWwgbW9kZWxvIHVzYXLDrWFuIHBhcmEgcHJlZGVjaXIgZWwgcHJlY2lvPyDCv1BvciBxdcOpPw==