Datos obtenidos en Kaggle - Titanic: Machine Learning from Disaster
INSTRUCCIONES
Deberán realizar el trabajo en un RNotebook publicado en RPubs.
El RNotebook debe:
- Tener el siguiente nombre: eea2019_tp1_(apellido)_(nombre)
- Mostrar todo el código que escriban. NO USAR
echo=FALSE
- Ser ordenado de acuerdo a las consignas propuestas
Una vez terminado el notebook deberán subirlo a RPubs e indicar el link en el archivo que les compartiremos.
CRITERIOS DE EVALUACION
En caso que los resultados no sean los esperados y no logremos identificar las fuentes de error podemos pedirles que nos compartan el archivo .Rmd y ciertas bases de datos que vayan generando.
CONSIGNAS
En este trabajo deberán crear un modelo de regresión logística para clasificar si una persona que viajaba a bordo del Titanic sobrevivió o no.
El diccionario de datos se puede encontrar aquí
- Preparación de los datos
- Leer el archivo titanic_complete_train.csv y mostrar su estructura
- Seleccionar las variables PassengerId, Survived, Pclass, Sex, Age, SibSp,Parch, Fare y Embarked
- Transformar las variables Survived, Pclass y Embarked a factor
- Realizar un gráfico de
ggpairs
para las variables Survived, Pclass, Sex, Age y Fare e interpretarlo
- Mostrar la distribución de clase (Sobrevivientes vs No Sobrevivientes)
- Dividir al dataset en conjunto de entrenamiento (70% de los datos) y validación (30% de los datos). Volver a analizar la distribución de clase para chequear que sea aproximadamente igual entre ambos conjuntos y respecto a la distribución de clase que obtuvieron para todo el dataset en el punto 1)e)
NOTA: Ya hemos imputado los valores faltantes de ciertas variables en este dataset
- Predicciones (Trabajar con dataset de ENTRENAMIENTO)
- Realizar un modelo de regresión logística para predecir la supervivencia en función de Pclass, Sex y Age. Usar solo el dataset de entrenamiento
- Dar una breve interpretación de los coeficientes y su significatividad
¿Quién tiene una mayor probabilidad de supervivencia? Rose que es una mujer de 17 años que viaja en primera clase o Jack que es un hombre de 20 años viajando en tercera clase

- Generación de modelos (Trabajar con dataset de ENTRENAMIENTO)
- Generar 3 modelos de regresión logística sobre el dataset de entrenamiento utilizando diferentes combinaciones de variables. Al menos dos modelos deben ser multivariados
- Ordenar por la deviance los 3 modelos creados en el punto 3)a) y el creado en el punto 2)a) y seleccionar el mejor modelo en términos de la deviance explicada
- Evaluación del modelo (Trabajar con dataset de ENTRENAMIENTO)
- Realizar el gráfico de curva ROC y obtener el AUC para el modelo elegido. Interpretar el gráfico
- Realizar un violin plot e interpretar
- Elección del punto corte (Trabajar con dataset de VALIDACION)
- Sobre el dataset de validación realizar un gráfico de Accuracy, Specificity, Recall y Precision en función del punto de corte
- Elegir un punto de corte y explicar su decisión
- Obtener la matriz de confusión con el modelo y punto de corte elegidos. Interpretarla
- Dataset de testeo (Trabajar con dataset de TESTEO)
- Leer el archivo titanic_complete_test.csv y transformar las variables Survived, Pclass y Embarked a factor
- Con el modelo y punto de corte elegidos clasificar a las personas del dataset de testing.
- Obtener la matriz de confusión y comparar con la obtenida en el punto 5)c).
NOTA: Ya hemos imputado los valores faltantes de ciertas variables en este dataset
LS0tCnRpdGxlOiAiVFAgMzogUmVncmVzacOzbiBMb2fDrXN0aWNhIgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgpEYXRvcyBvYnRlbmlkb3MgZW4gW0thZ2dsZSAtIFRpdGFuaWM6IE1hY2hpbmUgTGVhcm5pbmcgZnJvbSBEaXNhc3Rlcl0oaHR0cHM6Ly93d3cua2FnZ2xlLmNvbS9jL3RpdGFuaWMvb3ZlcnZpZXcpCgojIyBJTlNUUlVDQ0lPTkVTCgpEZWJlcsOhbiByZWFsaXphciBlbCB0cmFiYWpvIGVuIHVuICoqUk5vdGVib29rKiogcHVibGljYWRvIGVuIFtSUHVic10oaHR0cDovL3JwdWJzLmNvbS8pLgoKRWwgKipSTm90ZWJvb2sqKiBkZWJlOgoKKiBUZW5lciBlbCBzaWd1aWVudGUgbm9tYnJlOiBlZWEyMDE5X3RwMV8oYXBlbGxpZG8pXyhub21icmUpCiogTW9zdHJhciB0b2RvIGVsIGPDs2RpZ28gcXVlIGVzY3JpYmFuLiBOTyBVU0FSIGBlY2hvPUZBTFNFYAoqIFNlciBvcmRlbmFkbyBkZSBhY3VlcmRvIGEgbGFzIGNvbnNpZ25hcyBwcm9wdWVzdGFzCgpVbmEgdmV6IHRlcm1pbmFkbyBlbCBub3RlYm9vayBkZWJlcsOhbiBzdWJpcmxvIGEgUlB1YnMgZSBpbmRpY2FyIGVsIGxpbmsgZW4gZWwgYXJjaGl2byBxdWUgbGVzIGNvbXBhcnRpcmVtb3MuCgojIyBDUklURVJJT1MgREUgRVZBTFVBQ0lPTgoKKiBFeHBsaWNhciBsb3MgcHJvY2VkaW1pZW50b3MgeSBkZWNpc2lvbmVzIGVuIGVsIHRleHRvCiogQ29tZW50YXIgZWwgY8OzZGlnbwoqIExsZWdhciBhIGxvcyByZXN1bHRhZG9zIGVzcGVyYWRvcwoqIFJlY29tZW5kYW1vcyBmdWVydGVtZW50ZSB1c2FyIGxhcyBmdW5jaW9uZXMgZGUgYHRpZHl2ZXJzZWAKKiBSZXNwZXRhciBlbCBwaXBlbGluZSBjb24gbG9zIGRhdGFzZXRzIGRlIGVudHJlbmFtaWVudG8sIHZhbGlkYWNpw7NuIHkgdGVzdGVvCgogICFbXSh0cmFpbl90ZXN0X2Vycm9yLnBuZyl7IGhlaWdodD03Y20gfQoKRW4gY2FzbyBxdWUgbG9zIHJlc3VsdGFkb3Mgbm8gc2VhbiBsb3MgZXNwZXJhZG9zIHkgbm8gbG9ncmVtb3MgaWRlbnRpZmljYXIgbGFzIGZ1ZW50ZXMgZGUgZXJyb3IgcG9kZW1vcyBwZWRpcmxlcyBxdWUgbm9zIGNvbXBhcnRhbiBlbCBhcmNoaXZvIC5SbWQgeSBjaWVydGFzIGJhc2VzIGRlIGRhdG9zIHF1ZSB2YXlhbiBnZW5lcmFuZG8uCgojIyBDT05TSUdOQVMKCkVuIGVzdGUgdHJhYmFqbyBkZWJlcsOhbiBjcmVhciB1biBtb2RlbG8gZGUgcmVncmVzacOzbiBsb2fDrXN0aWNhIHBhcmEgY2xhc2lmaWNhciBzaSB1bmEgcGVyc29uYSBxdWUgdmlhamFiYSBhIGJvcmRvIGRlbCBUaXRhbmljIHNvYnJldml2acOzIG8gbm8uIAoKRWwgZGljY2lvbmFyaW8gZGUgZGF0b3Mgc2UgcHVlZGUgZW5jb250cmFyIFthcXXDrV0oaHR0cHM6Ly93d3cua2FnZ2xlLmNvbS9jL3RpdGFuaWMvZGF0YSkKCjEpIFByZXBhcmFjacOzbiBkZSBsb3MgZGF0b3MKICAgIGEpIExlZXIgZWwgYXJjaGl2byAqdGl0YW5pY19jb21wbGV0ZV90cmFpbi5jc3YqIHkgbW9zdHJhciBzdSBlc3RydWN0dXJhCiAgICBiKSBTZWxlY2Npb25hciBsYXMgdmFyaWFibGVzICoqUGFzc2VuZ2VySWQqKiwgKipTdXJ2aXZlZCoqLCAqKlBjbGFzcyoqLCAqKlNleCoqLCAqKkFnZSoqLCAqKlNpYlNwKiosKipQYXJjaCoqLCAqKkZhcmUqKiB5ICoqRW1iYXJrZWQqKgogICAgYykgVHJhbnNmb3JtYXIgbGFzIHZhcmlhYmxlcyAqKlN1cnZpdmVkKiosICAqKlBjbGFzcyoqIHkgKipFbWJhcmtlZCoqIGEgZmFjdG9yCiAgICBkKSBSZWFsaXphciB1biBncsOhZmljbyBkZSBgZ2dwYWlyc2AgcGFyYSBsYXMgdmFyaWFibGVzICAqKlN1cnZpdmVkKiosICoqUGNsYXNzKiosICoqU2V4KiosICoqQWdlKiogeSAqKkZhcmUqKiBlIGludGVycHJldGFybG8KICAgIGUpIE1vc3RyYXIgbGEgZGlzdHJpYnVjacOzbiBkZSBjbGFzZSAoU29icmV2aXZpZW50ZXMgdnMgTm8gU29icmV2aXZpZW50ZXMpCiAgICBmKSBEaXZpZGlyIGFsIGRhdGFzZXQgZW4gY29uanVudG8gZGUgZW50cmVuYW1pZW50byAoNzAlIGRlIGxvcyBkYXRvcykgeSB2YWxpZGFjacOzbiAoMzAlIGRlIGxvcyBkYXRvcykuIFZvbHZlciBhIGFuYWxpemFyIGxhIGRpc3RyaWJ1Y2nDs24gZGUgY2xhc2UgcGFyYSBjaGVxdWVhciBxdWUgc2VhIGFwcm94aW1hZGFtZW50ZSBpZ3VhbCBlbnRyZSBhbWJvcyBjb25qdW50b3MgeSByZXNwZWN0byBhIGxhIGRpc3RyaWJ1Y2nDs24gZGUgY2xhc2UgcXVlIG9idHV2aWVyb24gcGFyYSB0b2RvIGVsIGRhdGFzZXQgZW4gZWwgcHVudG8gMSllKQogICAgCiAgICBOT1RBOiBZYSBoZW1vcyBpbXB1dGFkbyBsb3MgdmFsb3JlcyBmYWx0YW50ZXMgZGUgY2llcnRhcyB2YXJpYWJsZXMgZW4gZXN0ZSBkYXRhc2V0CgoyKSBQcmVkaWNjaW9uZXMgKFRyYWJhamFyIGNvbiBkYXRhc2V0IGRlICoqRU5UUkVOQU1JRU5UTyoqKQogICAgYSkgUmVhbGl6YXIgdW4gbW9kZWxvIGRlIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBwYXJhIHByZWRlY2lyIGxhIHN1cGVydml2ZW5jaWEgZW4gZnVuY2nDs24gZGUgKipQY2xhc3MqKiwgKipTZXgqKiB5ICoqQWdlKiouIFVzYXIgc29sbyBlbCBkYXRhc2V0IGRlIGVudHJlbmFtaWVudG8KICAgIGIpIERhciB1bmEgKipicmV2ZSBpbnRlcnByZXRhY2nDs24qKiBkZSBsb3MgY29lZmljaWVudGVzIHkgc3Ugc2lnbmlmaWNhdGl2aWRhZAogICAgYykgwr9RdWnDqW4gdGllbmUgdW5hIG1heW9yICoqcHJvYmFiaWxpZGFkIGRlIHN1cGVydml2ZW5jaWEqKj8gUm9zZSBxdWUgZXMgdW5hIG11amVyIGRlIDE3IGHDsW9zIHF1ZSB2aWFqYSBlbiBwcmltZXJhIGNsYXNlIG8gSmFjayBxdWUgZXMgdW4gaG9tYnJlIGRlIDIwIGHDsW9zIHZpYWphbmRvIGVuIHRlcmNlcmEgY2xhc2UKICAgIAogICAgICAgICAgIVtdKHJvc2VqYWNrMS5qcGcpeyBoZWlnaHQ9N2NtIH0gICAhW10ocm9zZWphY2syLmpwZyl7IGhlaWdodD03Y20gfQoKICAKMykgR2VuZXJhY2nDs24gZGUgbW9kZWxvcyAoVHJhYmFqYXIgY29uIGRhdGFzZXQgZGUgKipFTlRSRU5BTUlFTlRPKiopCiAgICBhKSBHZW5lcmFyICoqMyBtb2RlbG9zKiogZGUgcmVncmVzacOzbiBsb2fDrXN0aWNhIHNvYnJlIGVsIGRhdGFzZXQgZGUgZW50cmVuYW1pZW50byAqKnV0aWxpemFuZG8gZGlmZXJlbnRlcyBjb21iaW5hY2lvbmVzIGRlIHZhcmlhYmxlcyoqLiBBbCBtZW5vcyBkb3MgbW9kZWxvcyBkZWJlbiBzZXIgbXVsdGl2YXJpYWRvcwogICAgYikgT3JkZW5hciBwb3IgbGEgKipkZXZpYW5jZSoqIGxvcyAzIG1vZGVsb3MgY3JlYWRvcyBlbiBlbCBwdW50byAzKWEpIHkgZWwgY3JlYWRvIGVuIGVsIHB1bnRvIDIpYSkgeSBzZWxlY2Npb25hciBlbCBtZWpvciBtb2RlbG8gZW4gdMOpcm1pbm9zIGRlIGxhICoqZGV2aWFuY2UgZXhwbGljYWRhKioKCjQpIEV2YWx1YWNpw7NuIGRlbCBtb2RlbG8gKFRyYWJhamFyIGNvbiBkYXRhc2V0IGRlICoqRU5UUkVOQU1JRU5UTyoqKQogICAgYSkgUmVhbGl6YXIgZWwgZ3LDoWZpY28gZGUgKipjdXJ2YSBST0MqKiB5IG9idGVuZXIgZWwgKipBVUMqKiBwYXJhIGVsIG1vZGVsbyBlbGVnaWRvLiBJbnRlcnByZXRhciBlbCBncsOhZmljbwogICAgYikgUmVhbGl6YXIgdW4gKip2aW9saW4gcGxvdCoqIGUgaW50ZXJwcmV0YXIKCjUpIEVsZWNjacOzbiBkZWwgcHVudG8gY29ydGUgKFRyYWJhamFyIGNvbiBkYXRhc2V0IGRlICoqVkFMSURBQ0lPTioqKQogICAgYSkgU29icmUgZWwgZGF0YXNldCBkZSB2YWxpZGFjacOzbiByZWFsaXphciB1biBncsOhZmljbyBkZSAqKkFjY3VyYWN5LCBTcGVjaWZpY2l0eSwgUmVjYWxsIHkgUHJlY2lzaW9uKiogZW4gZnVuY2nDs24gZGVsIHB1bnRvIGRlIGNvcnRlCiAgICBiKSBFbGVnaXIgdW4gKipwdW50byBkZSBjb3J0ZSoqIHkgZXhwbGljYXIgc3UgZGVjaXNpw7NuCiAgICBjKSBPYnRlbmVyIGxhICoqbWF0cml6IGRlIGNvbmZ1c2nDs24qKiBjb24gZWwgbW9kZWxvIHkgcHVudG8gZGUgY29ydGUgZWxlZ2lkb3MuIEludGVycHJldGFybGEKCjYpIERhdGFzZXQgZGUgdGVzdGVvIChUcmFiYWphciBjb24gZGF0YXNldCBkZSAqKlRFU1RFTyoqKQogICAgYSkgTGVlciBlbCBhcmNoaXZvICp0aXRhbmljX2NvbXBsZXRlX3Rlc3QuY3N2KiB5IHRyYW5zZm9ybWFyIGxhcyB2YXJpYWJsZXMgKipTdXJ2aXZlZCoqLCAgKipQY2xhc3MqKiB5ICoqRW1iYXJrZWQqKiBhIGZhY3RvcgogICAgYikgQ29uIGVsIG1vZGVsbyB5IHB1bnRvIGRlIGNvcnRlIGVsZWdpZG9zICoqY2xhc2lmaWNhcioqIGEgbGFzIHBlcnNvbmFzIGRlbCBkYXRhc2V0IGRlIHRlc3RpbmcuCiAgICBjKSBPYnRlbmVyIGxhICoqbWF0cml6IGRlIGNvbmZ1c2nDs24qKiB5IGNvbXBhcmFyIGNvbiBsYSBvYnRlbmlkYSBlbiBlbCBwdW50byA1KWMpLgogICAgCiAgICBOT1RBOiBZYSBoZW1vcyBpbXB1dGFkbyBsb3MgdmFsb3JlcyBmYWx0YW50ZXMgZGUgY2llcnRhcyB2YXJpYWJsZXMgZW4gZXN0ZSBkYXRhc2V0