Datos provistos por Properati Argentina

INSTRUCCIONES

Deberán realizar el trabajo en un RNotebook publicado en RPubs.

El RNotebook debe:

Una vez terminado el notebook deberán subirlo a RPubs e indicar el link en el archivo que les compartiremos.

CRITERIOS DE EVALUACION

En caso que los resultados no sean los esperados y no logremos identificar las fuentes de error podemos pedirles que nos compartan el archivo .Rmd y ciertas bases de datos que vayan generando.

CONSIGNAS

  1. Preparacion de los datos (I)
    1. Leer el archivo ar_properties.csv y mostrar su estructura
    2. Quedarse con aquellos registros que:
      1. Pertenecen a Argentina y Capital Federal
      2. Cuyo precio esta en dolares (USD)
      3. El tipo de propiedad sea: Departamento, PH o Casa
      4. El tipo de operacion sea Venta
    3. Seleccionar las variables id, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, price y property_type

Deberian llegar a un dataset con 61905 observaciones y 9 variables

  1. Analisis exploratorios (I)
    1. Obtener la cantidad de valores unicos y de valores faltantes (NAs) para cada una de estas variables
    2. Obtener la matriz de correlacion para las variables numericas. Pista: usen ‘complete.obs’ para poder omitir los valores faltantes.
  2. Preparacion de los datos (II)
    1. En el punto 2 deberian haber encontrado que la variable bedrooms presenta una alta proporción de valores faltantes y que presenta una fuerte correlacion con la variable rooms. Por lo tanto, vamos a eliminarla.
    2. Eliminar todos los registros que presentan valores faltantes

Deberian llegar a un dataset con 51210 observaciones y 8 variables

  1. Analisis exploratorios (II)
    1. Obtener estadisticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) y realizar un histograma de la variable
    2. Obtener estadisticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) por cada tipo de propiedad.
    3. Realizar un grafico de boxplot de la variable precio por tipo de propiedad
    4. Realizar un correlagrama usando GGAlly
  2. Outliers
    1. Eliminar los outliers de la variable precio con algún criterio que elijan: puede ser por valores de corte, eliminar el x% a izquierda y derecha,etc.
  3. Analisis exploratorios (III)
    1. Repetir los 4 análisis exploratorios realizados en el punto 4 y realizar unos breves comentarios sobre los cambios que encontraron
  4. Modelo lineal
    1. Realizar un modelo lineal simple para explicar el precio en función de las habitaciones (rooms) y otro modelo que explique el precio en función de la superficie total (surface_total)
    2. Usar la función summary() para obtener informacion de ambos modelos. Explicar los valores de los coeficientes estimados.
    3. ¿Cuál modelo usarían para predecir el precio? ¿Por qué?
LS0tCnRpdGxlOiAiVFAgMTogQW5hbGlzaXMgZXhwbG9yYXRvcmlvIGUgSW50cm9kdWNjaW9uIGEgUmVncmVzacOzbiBsaW5lYWwiCm91dHB1dDogaHRtbF9ub3RlYm9vawotLS0KCkRhdG9zIHByb3Zpc3RvcyBwb3IgW1Byb3BlcmF0aSBBcmdlbnRpbmFdKGh0dHBzOi8vd3d3LnByb3BlcmF0aS5jb20uYXIpCgojIyBJTlNUUlVDQ0lPTkVTCgpEZWJlcsOhbiByZWFsaXphciBlbCB0cmFiYWpvIGVuIHVuICoqUk5vdGVib29rKiogcHVibGljYWRvIGVuIFtSUHVic10oaHR0cDovL3JwdWJzLmNvbS8pLgoKRWwgKipSTm90ZWJvb2sqKiBkZWJlOgoKKiBUZW5lciBlbCBzaWd1aWVudGUgbm9tYnJlOiBlZWEyMDE5X3RwMV8oYXBlbGxpZG8pXyhub21icmUpCiogTW9zdHJhciB0b2RvIGVsIGPDs2RpZ28gcXVlIGVzY3JpYmFuLiBOTyBVU0FSIGBlY2hvPUZBTFNFYAoqIFNlciBvcmRlbmFkbyBkZSBhY3VlcmRvIGEgbGFzIGNvbnNpZ25hcyBwcm9wdWVzdGFzCgpVbmEgdmV6IHRlcm1pbmFkbyBlbCBub3RlYm9vayBkZWJlcsOhbiBzdWJpcmxvIGEgUlB1YnMgZSBpbmRpY2FyIGVsIGxpbmsgZW4gZWwgYXJjaGl2byBxdWUgbGVzIGNvbXBhcnRpcmVtb3MuCgojIyBDUklURVJJT1MgREUgRVZBTFVBQ0lPTgoKKiBFeHBsaWNhciBsb3MgcHJvY2VkaW1pZW50b3MgeSBkZWNpc2lvbmVzIGVuIGVsIHRleHRvCiogQ29tZW50YXIgZWwgY8OzZGlnbwoqIExsZWdhciBhIGxvcyByZXN1bHRhZG9zIGVzcGVyYWRvcwoqIFJlY29tZW5kYW1vcyBmdWVydGVtZW50ZSB1c2FyIGxhcyBmdW5jaW9uZXMgZGUgYHRpZHl2ZXJzZWAKCkVuIGNhc28gcXVlIGxvcyByZXN1bHRhZG9zIG5vIHNlYW4gbG9zIGVzcGVyYWRvcyB5IG5vIGxvZ3JlbW9zIGlkZW50aWZpY2FyIGxhcyBmdWVudGVzIGRlIGVycm9yIHBvZGVtb3MgcGVkaXJsZXMgcXVlIG5vcyBjb21wYXJ0YW4gZWwgYXJjaGl2byAuUm1kIHkgY2llcnRhcyBiYXNlcyBkZSBkYXRvcyBxdWUgdmF5YW4gZ2VuZXJhbmRvLgoKIyMgQ09OU0lHTkFTCgoxKSBQcmVwYXJhY2lvbiBkZSBsb3MgZGF0b3MgKEkpCiAgICBhKSBMZWVyIGVsIGFyY2hpdm8gKmFyX3Byb3BlcnRpZXMuY3N2KiB5IG1vc3RyYXIgc3UgZXN0cnVjdHVyYQogICAgYikgUXVlZGFyc2UgY29uIGFxdWVsbG9zIHJlZ2lzdHJvcyBxdWU6CiAgICAgICAgaSkgUGVydGVuZWNlbiBhIEFyZ2VudGluYSB5IENhcGl0YWwgRmVkZXJhbAogICAgICAgIGlpKSBDdXlvIHByZWNpbyBlc3RhIGVuIGRvbGFyZXMgKFVTRCkKICAgICAgICBpaWkpIEVsIHRpcG8gZGUgcHJvcGllZGFkIHNlYTogRGVwYXJ0YW1lbnRvLCBQSCBvIENhc2EKICAgICAgICBpdikgRWwgdGlwbyBkZSBvcGVyYWNpb24gc2VhIFZlbnRhCiAgICBjKSBTZWxlY2Npb25hciBsYXMgdmFyaWFibGVzICoqaWQqKiwgKipsMyoqLCAqKnJvb21zKiosICoqYmVkcm9vbXMqKiwgKipiYXRocm9vbXMqKiwgKipzdXJmYWNlX3RvdGFsKiosICoqc3VyZmFjZV9jb3ZlcmVkKiosICoqcHJpY2UqKiB5ICoqcHJvcGVydHlfdHlwZSoqCiAgCkRlYmVyaWFuIGxsZWdhciBhIHVuIGRhdGFzZXQgY29uIDYxOTA1IG9ic2VydmFjaW9uZXMgeSA5IHZhcmlhYmxlcwogCjIpIEFuYWxpc2lzIGV4cGxvcmF0b3Jpb3MgKEkpCiAgICBhKSBPYnRlbmVyIGxhIGNhbnRpZGFkIGRlIHZhbG9yZXMgdW5pY29zIHkgZGUgdmFsb3JlcyBmYWx0YW50ZXMgKE5BcykgcGFyYSBjYWRhIHVuYSBkZSBlc3RhcyB2YXJpYWJsZXMKICAgIGIpIE9idGVuZXIgbGEgbWF0cml6IGRlIGNvcnJlbGFjaW9uIHBhcmEgbGFzIHZhcmlhYmxlcyBudW1lcmljYXMuIFBpc3RhOiB1c2VuICdjb21wbGV0ZS5vYnMnIHBhcmEgcG9kZXIgb21pdGlyIGxvcyB2YWxvcmVzIGZhbHRhbnRlcy4KICAKMykgUHJlcGFyYWNpb24gZGUgbG9zIGRhdG9zIChJSSkKICAgIGEpIEVuIGVsIHB1bnRvIDIgZGViZXJpYW4gaGFiZXIgZW5jb250cmFkbyBxdWUgbGEgdmFyaWFibGUgKipiZWRyb29tcyoqIHByZXNlbnRhIHVuYSBhbHRhIHByb3BvcmNpw7NuIGRlIHZhbG9yZXMgZmFsdGFudGVzIHkgcXVlIHByZXNlbnRhIHVuYSBmdWVydGUgY29ycmVsYWNpb24gY29uIGxhIHZhcmlhYmxlICoqcm9vbXMqKi4gUG9yIGxvIHRhbnRvLCB2YW1vcyBhIGVsaW1pbmFybGEuCiAgICBiKSBFbGltaW5hciB0b2RvcyBsb3MgcmVnaXN0cm9zIHF1ZSBwcmVzZW50YW4gdmFsb3JlcyBmYWx0YW50ZXMKICAKRGViZXJpYW4gbGxlZ2FyIGEgdW4gZGF0YXNldCBjb24gNTEyMTAgb2JzZXJ2YWNpb25lcyB5IDggdmFyaWFibGVzCiAgCjQpIEFuYWxpc2lzIGV4cGxvcmF0b3Jpb3MgKElJKQogICAgYSkgT2J0ZW5lciBlc3RhZGlzdGljYXMgZGVzY3JpcHRpdmFzIHBhcmEgbGEgdmFyaWFibGUgcHJlY2lvIChjdWFydGlsZXMsIHByb21lZGlvLCBtaW5pbW8geSBtYXhpbW8pIHkgcmVhbGl6YXIgdW4gaGlzdG9ncmFtYSBkZSBsYSB2YXJpYWJsZQogICAgYikgT2J0ZW5lciBlc3RhZGlzdGljYXMgZGVzY3JpcHRpdmFzIHBhcmEgbGEgdmFyaWFibGUgcHJlY2lvIChjdWFydGlsZXMsIHByb21lZGlvLCBtaW5pbW8geSBtYXhpbW8pIHBvciBjYWRhIHRpcG8gZGUgcHJvcGllZGFkLiAKICAgIGMpIFJlYWxpemFyIHVuIGdyYWZpY28gZGUgYm94cGxvdCBkZSBsYSB2YXJpYWJsZSBwcmVjaW8gcG9yIHRpcG8gZGUgcHJvcGllZGFkCiAgICBkKSBSZWFsaXphciB1biBjb3JyZWxhZ3JhbWEgdXNhbmRvIGBHR0FsbHlgCiAgCjUpIE91dGxpZXJzCiAgICBhKSBFbGltaW5hciBsb3Mgb3V0bGllcnMgZGUgbGEgdmFyaWFibGUgKipwcmVjaW8qKiBjb24gYWxnw7puIGNyaXRlcmlvIHF1ZSBlbGlqYW46IHB1ZWRlIHNlciBwb3IgdmFsb3JlcyBkZSBjb3J0ZSwgZWxpbWluYXIgZWwgeCUgYSBpenF1aWVyZGEgeSBkZXJlY2hhLGV0Yy4KICAgIAo2KSBBbmFsaXNpcyBleHBsb3JhdG9yaW9zIChJSUkpCiAgICBhKSBSZXBldGlyIGxvcyA0IGFuw6FsaXNpcyBleHBsb3JhdG9yaW9zIHJlYWxpemFkb3MgZW4gZWwgcHVudG8gNCB5IHJlYWxpemFyIHVub3MgYnJldmVzIGNvbWVudGFyaW9zIHNvYnJlIGxvcyBjYW1iaW9zIHF1ZSBlbmNvbnRyYXJvbgogIAo3KSBNb2RlbG8gbGluZWFsCiAgICBhKSBSZWFsaXphciB1biBtb2RlbG8gbGluZWFsIHNpbXBsZSBwYXJhIGV4cGxpY2FyIGVsIHByZWNpbyBlbiBmdW5jacOzbiBkZSBsYXMgaGFiaXRhY2lvbmVzIChyb29tcykgeSBvdHJvIG1vZGVsbyBxdWUgZXhwbGlxdWUgZWwgcHJlY2lvIGVuIGZ1bmNpw7NuIGRlIGxhIHN1cGVyZmljaWUgdG90YWwgKHN1cmZhY2VfdG90YWwpCiAgICBiKSBVc2FyIGxhIGZ1bmNpw7NuIGBzdW1tYXJ5KClgIHBhcmEgb2J0ZW5lciBpbmZvcm1hY2lvbiBkZSBhbWJvcyBtb2RlbG9zLiBFeHBsaWNhciBsb3MgdmFsb3JlcyBkZSBsb3MgY29lZmljaWVudGVzIGVzdGltYWRvcy4KICAgIGMpIMK/Q3XDoWwgbW9kZWxvIHVzYXLDrWFuIHBhcmEgcHJlZGVjaXIgZWwgcHJlY2lvPyDCv1BvciBxdcOpPw==