Datos provistos por Properati Argentina
INSTRUCCIONES
Deberán realizar el trabajo en un RNotebook publicado en RPubs.
El RNotebook debe:
- Tener el siguiente nombre: eea2019_tp2_(apellido)_(nombre)
- Mostrar todo el código que escriban. NO USAR
echo=FALSE
- Ser ordenado de acuerdo a las consignas propuestas
Una vez terminado el notebook deberán subirlo a RPubs e indicar el link en el archivo de carga de trabajos.
CRITERIOS DE EVALUACION
- Explicar los procedimientos y decisiones en el texto
- Comentar el código
- Llegar a los resultados esperados
- Recomendamos fuertemente usar las funciones de
tidyverse
CONSIGNAS
- Regresión lineal múltiple
- Crear un modelo para predecir el precio con todas las covariables.
- Analizar los resultados del modelo:
- Interpretación de los coeficientes estimados
- ¿Qué observan respecto de la significatividad de las variables dummy?
- Medidas de evaluación del modelo
- ¿Qué es preferible tener para vender?:
- un departamento de 120 mts cuadrados cubiertos en abasto, con 3 dormitorios y 2 baños
- Un PH en balvanera, con 80 mts cuadrados cubiertos, 20 mts cuadrados no cubiertos, 2 dormitorios y 3 baños.
Realizar un modelo sin la covariable l3
e interpretar sus resultados (todas las partes de la salida que consideren relevantes)
¿Cuál es el modelo que mejor explica la variabilidad del precio?
- Creación de variables:
- En el ejercicio anterior encontramos que algunos barrios son significativos, aunque no todos. Crear una nueva variable
barrios
que divida a los barrios según el precio por metro cuadrado promedio de las propiedades en ellos, con los grupos c(‘alto’, ‘medio’, ‘bajo’). Realizar un análisis exploratorio para definir los puntos de corte de la nueva variable y explicar los criterios utilizados en la construcción de la misma.
- Calcular el modelo que predice el precio en función de las nuevas covariables e interpretar sus resultados (todas las partes de la salida que consideren relevantes)
- ¿Qué modelo explica mejor la variabilidad de los datos, el que utiliza la variable
l3
o el que utiliza barrio
? En su opinión, ¿Qué modelo es más útil? ¿Porqué?
- La interpretación de los coeficientes de las variables
surface_covered
y surface_total
puede ser un poco problemática ya que se encuentran correlacionadas. Entonces, podemos construir una nueva variable surface_patio
para la diferencia entre ambas superficies:
- Construir una nueva variable
surface_patio
. Dado que algunos registros pueden contener la contradicción de que surface_total<surface_covered, explicitar cómo se procede para dichos casos.
- Calcular nuevamente el modelo lineal para todas las covariables previas (excepto
surface_total
), surface_covered
y surface_patio
e interpretar los coeficientes de estas dos últimas variables
- Evaluación del modelo:
- Analizar los residuos del modelo elaborado en 2.d
- Calcular el modelo \[
log(price) = \beta_0 + \beta_1log(rooms) + \beta_2log(bathrooms) + \beta_3log(surface\_covered) + \beta_4property\_type + \beta_5barrio + \beta_6surface\_patio
\] Comparar la performance del modelo de 2.d con éste, tanto en términos de la variabilidad explicada cómo de su relación con los supuestos del modelo lineal. Re-interpretar los parámetros del modelo.
- Dataframes anidados
- Anidar por la variable property_type
- Construir para cada tipo de propiedad el modelo de 2.d e interpretar los resultados en cada caso. Qué diferencias encuentran entre los distintos modelos?
LS0tCnRpdGxlOiAiVFAgMjogUmVncmVzacOzbiBsaW5lYWwgTcO6bHRpcGxlIgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgpEYXRvcyBwcm92aXN0b3MgcG9yIFtQcm9wZXJhdGkgQXJnZW50aW5hXShodHRwczovL3d3dy5wcm9wZXJhdGkuY29tLmFyKQoKIyMgSU5TVFJVQ0NJT05FUwoKRGViZXLDoW4gcmVhbGl6YXIgZWwgdHJhYmFqbyBlbiB1biAqKlJOb3RlYm9vayoqIHB1YmxpY2FkbyBlbiBbUlB1YnNdKGh0dHA6Ly9ycHVicy5jb20vKS4KCkVsICoqUk5vdGVib29rKiogZGViZToKCiogVGVuZXIgZWwgc2lndWllbnRlIG5vbWJyZTogZWVhMjAxOV90cDJfKGFwZWxsaWRvKV8obm9tYnJlKQoqIE1vc3RyYXIgdG9kbyBlbCBjw7NkaWdvIHF1ZSBlc2NyaWJhbi4gTk8gVVNBUiBgZWNobz1GQUxTRWAKKiBTZXIgb3JkZW5hZG8gZGUgYWN1ZXJkbyBhIGxhcyBjb25zaWduYXMgcHJvcHVlc3RhcwoKVW5hIHZleiB0ZXJtaW5hZG8gZWwgbm90ZWJvb2sgZGViZXLDoW4gc3ViaXJsbyBhIFJQdWJzIGUgaW5kaWNhciBlbCBsaW5rIGVuIGVsIGFyY2hpdm8gZGUgY2FyZ2EgZGUgdHJhYmFqb3MuCgojIyBDUklURVJJT1MgREUgRVZBTFVBQ0lPTgoKKiBFeHBsaWNhciBsb3MgcHJvY2VkaW1pZW50b3MgeSBkZWNpc2lvbmVzIGVuIGVsIHRleHRvCiogQ29tZW50YXIgZWwgY8OzZGlnbwoqIExsZWdhciBhIGxvcyByZXN1bHRhZG9zIGVzcGVyYWRvcwoqIFJlY29tZW5kYW1vcyBmdWVydGVtZW50ZSB1c2FyIGxhcyBmdW5jaW9uZXMgZGUgYHRpZHl2ZXJzZWAKCiMjIERhdG9zCgpVdGlsaXphciBlbCBudWV2byBkYXRhc2V0LCB5YSBmaWx0cmFkbywgcXVlIHNlIGVuY3VlbnRyYSBlbiBodHRwczovL2RpZWdva296LmdpdGh1Yi5pby9FRUEyMDE5L3RyYWJham9zX3ByYWN0aWNvcy9UUC0yL2FyX3Byb3BlcnRpZXMucmRzCgojIyBDT05TSUdOQVMKCjEpIFJlZ3Jlc2nDs24gbGluZWFsIG3Dumx0aXBsZQoKICBhKSBDcmVhciB1biBtb2RlbG8gcGFyYSBwcmVkZWNpciBlbCBwcmVjaW8gY29uIHRvZGFzIGxhcyBjb3ZhcmlhYmxlcy4KICBiKSBBbmFsaXphciBsb3MgcmVzdWx0YWRvcyBkZWwgbW9kZWxvOgogICAgICBpKSBJbnRlcnByZXRhY2nDs24gZGUgbG9zIGNvZWZpY2llbnRlcyBlc3RpbWFkb3MKICAgICAgaWkpIMK/UXXDqSBvYnNlcnZhbiByZXNwZWN0byBkZSBsYSBzaWduaWZpY2F0aXZpZGFkIGRlIGxhcyB2YXJpYWJsZXMgZHVtbXk/CiAgICAgIGlpaSkgTWVkaWRhcyBkZSBldmFsdWFjacOzbiBkZWwgbW9kZWxvCiAgYykgwr9RdcOpIGVzIHByZWZlcmlibGUgdGVuZXIgcGFyYSB2ZW5kZXI/OgogICAgICAxLiB1biBkZXBhcnRhbWVudG8gZGUgMTIwIG10cyBjdWFkcmFkb3MgY3ViaWVydG9zIGVuIGFiYXN0bywgY29uIDMgZG9ybWl0b3Jpb3MgeSAyIGJhw7FvcwogICAgICAyLiBVbiBQSCBlbiBiYWx2YW5lcmEsIGNvbiA4MCBtdHMgY3VhZHJhZG9zIGN1YmllcnRvcywgMjAgbXRzIGN1YWRyYWRvcyBubyBjdWJpZXJ0b3MsIDIgZG9ybWl0b3Jpb3MgeSAzIGJhw7Fvcy4KCiAgZCkgUmVhbGl6YXIgdW4gbW9kZWxvIHNpbiBsYSBjb3ZhcmlhYmxlIGBsM2AgZSBpbnRlcnByZXRhciBzdXMgcmVzdWx0YWRvcyAodG9kYXMgbGFzIHBhcnRlcyBkZSBsYSBzYWxpZGEgcXVlIGNvbnNpZGVyZW4gcmVsZXZhbnRlcykKCiAgZSkgwr9DdcOhbCBlcyBlbCBtb2RlbG8gcXVlIG1lam9yIGV4cGxpY2EgbGEgdmFyaWFiaWxpZGFkIGRlbCBwcmVjaW8/CgoyKSBDcmVhY2nDs24gZGUgdmFyaWFibGVzOgogICAgYSkgRW4gZWwgZWplcmNpY2lvIGFudGVyaW9yIGVuY29udHJhbW9zIHF1ZSBhbGd1bm9zIGJhcnJpb3Mgc29uIHNpZ25pZmljYXRpdm9zLCBhdW5xdWUgbm8gdG9kb3MuIENyZWFyIHVuYSBudWV2YSB2YXJpYWJsZSBgYmFycmlvc2AgcXVlIGRpdmlkYSBhIGxvcyBiYXJyaW9zIHNlZ8O6biBlbCBwcmVjaW8gcG9yIG1ldHJvIGN1YWRyYWRvIHByb21lZGlvIGRlIGxhcyBwcm9waWVkYWRlcyBlbiBlbGxvcywgY29uIGxvcyBncnVwb3MgYygnYWx0bycsICdtZWRpbycsICdiYWpvJykuIFJlYWxpemFyIHVuIGFuw6FsaXNpcyBleHBsb3JhdG9yaW8gcGFyYSBkZWZpbmlyIGxvcyBwdW50b3MgZGUgY29ydGUgZGUgbGEgbnVldmEgdmFyaWFibGUgeSBleHBsaWNhciBsb3MgY3JpdGVyaW9zIHV0aWxpemFkb3MgZW4gbGEgY29uc3RydWNjacOzbiBkZSBsYSBtaXNtYS4KICAgIGIpIENhbGN1bGFyIGVsIG1vZGVsbyBxdWUgcHJlZGljZSBlbCBwcmVjaW8gZW4gZnVuY2nDs24gZGUgbGFzIG51ZXZhcyBjb3ZhcmlhYmxlcyBlIGludGVycHJldGFyIHN1cyByZXN1bHRhZG9zICh0b2RhcyBsYXMgcGFydGVzIGRlIGxhIHNhbGlkYSBxdWUgY29uc2lkZXJlbiByZWxldmFudGVzKQogICAgYykgwr9RdcOpIG1vZGVsbyBleHBsaWNhIG1lam9yIGxhIHZhcmlhYmlsaWRhZCBkZSBsb3MgZGF0b3MsIGVsIHF1ZSB1dGlsaXphIGxhIHZhcmlhYmxlIGBsM2AgbyBlbCBxdWUgdXRpbGl6YSBgYmFycmlvYD8gRW4gc3Ugb3BpbmnDs24sIMK/UXXDqSBtb2RlbG8gZXMgbcOhcyDDunRpbD8gwr9Qb3JxdcOpPyAKICAgIGQpIExhIGludGVycHJldGFjacOzbiBkZSBsb3MgY29lZmljaWVudGVzIGRlIGxhcyB2YXJpYWJsZXMgYHN1cmZhY2VfY292ZXJlZGAgeSBgc3VyZmFjZV90b3RhbGAgcHVlZGUgc2VyIHVuIHBvY28gcHJvYmxlbcOhdGljYSB5YSBxdWUgc2UgZW5jdWVudHJhbiBjb3JyZWxhY2lvbmFkYXMuIEVudG9uY2VzLCBwb2RlbW9zIGNvbnN0cnVpciB1bmEgbnVldmEgdmFyaWFibGUgIGBzdXJmYWNlX3BhdGlvYCBwYXJhIGxhIGRpZmVyZW5jaWEgZW50cmUgYW1iYXMgc3VwZXJmaWNpZXM6CiAgICAgICAgaSkgQ29uc3RydWlyIHVuYSBudWV2YSB2YXJpYWJsZSAgYHN1cmZhY2VfcGF0aW9gLiBEYWRvIHF1ZSBhbGd1bm9zIHJlZ2lzdHJvcyBwdWVkZW4gY29udGVuZXIgbGEgY29udHJhZGljY2nDs24gZGUgcXVlIHN1cmZhY2VfdG90YWw8c3VyZmFjZV9jb3ZlcmVkLCBleHBsaWNpdGFyIGPDs21vIHNlIHByb2NlZGUgcGFyYSBkaWNob3MgY2Fzb3MuIAogICAgICAgIGlpKSBDYWxjdWxhciBudWV2YW1lbnRlIGVsIG1vZGVsbyBsaW5lYWwgcGFyYSB0b2RhcyBsYXMgY292YXJpYWJsZXMgcHJldmlhcyAoZXhjZXB0byBgc3VyZmFjZV90b3RhbGApLCBgc3VyZmFjZV9jb3ZlcmVkYCB5IGBzdXJmYWNlX3BhdGlvYCBlIGludGVycHJldGFyIGxvcyBjb2VmaWNpZW50ZXMgZGUgZXN0YXMgZG9zIMO6bHRpbWFzIHZhcmlhYmxlcwoKMykgRXZhbHVhY2nDs24gZGVsIG1vZGVsbzoKICAgIGEpIEFuYWxpemFyIGxvcyByZXNpZHVvcyBkZWwgbW9kZWxvIGVsYWJvcmFkbyBlbiAyLmQKICAgIGIpIENhbGN1bGFyIGVsIG1vZGVsbyAKJCQKbG9nKHByaWNlKSA9IFxiZXRhXzAgKyBcYmV0YV8xbG9nKHJvb21zKSArIFxiZXRhXzJsb2coYmF0aHJvb21zKSArIFxiZXRhXzNsb2coc3VyZmFjZVxfY292ZXJlZCkgKyBcYmV0YV80cHJvcGVydHlcX3R5cGUgKyBcYmV0YV81YmFycmlvICsgXGJldGFfNnN1cmZhY2VcX3BhdGlvCiQkCkNvbXBhcmFyIGxhIHBlcmZvcm1hbmNlIGRlbCBtb2RlbG8gZGUgMi5kIGNvbiDDqXN0ZSwgdGFudG8gZW4gdMOpcm1pbm9zIGRlIGxhIHZhcmlhYmlsaWRhZCBleHBsaWNhZGEgY8OzbW8gZGUgc3UgcmVsYWNpw7NuIGNvbiBsb3Mgc3VwdWVzdG9zIGRlbCBtb2RlbG8gbGluZWFsLiBSZS1pbnRlcnByZXRhciBsb3MgcGFyw6FtZXRyb3MgZGVsIG1vZGVsby4KCi0gTGVzIHJlY29tZW5kYW1vcyBjb21vIHJlZmVyZW5jaWEgcGFyYSBsYSBpbnRlcnByZXRhY2nDs24gZGUgbG9zIHBhcsOhbWV0cm9zIGVsCltXb29sZHJpZGdlLCBKLiBNLiAoMjAwNikuIEludHJvZHVjY2nDs24gYSBsYSBlY29ub21ldHLDrWE6IHVuIGVuZm9xdWUgbW9kZXJuby4gRWRpdG9yaWFsIFBhcmFuaW5mby5dKGh0dHBzOi8vZGllZ29rb3ouZ2l0aHViLmlvL0VFQTIwMTkvdGVvcmljYS9Xb29sZHJpZ2UucGRmKQoKNCkgRGF0YWZyYW1lcyBhbmlkYWRvcwogICAgYSkgQW5pZGFyIHBvciBsYSB2YXJpYWJsZSAqKnByb3BlcnR5X3R5cGUqKgogICAgYikgQ29uc3RydWlyIHBhcmEgY2FkYSB0aXBvIGRlIHByb3BpZWRhZCBlbCBtb2RlbG8gZGUgMi5kIGUgaW50ZXJwcmV0YXIgbG9zIHJlc3VsdGFkb3MgZW4gY2FkYSBjYXNvLiBRdcOpIGRpZmVyZW5jaWFzIGVuY3VlbnRyYW4gZW50cmUgbG9zIGRpc3RpbnRvcyBtb2RlbG9zPwoKCg==