Datos obtenidos en Kaggle - Titanic: Machine Learning from Disaster

INSTRUCCIONES

Deberán realizar el trabajo en un RNotebook publicado en RPubs.

El RNotebook debe:

Una vez terminado el notebook deberán subirlo a RPubs e indicar el link en el archivo que les compartiremos.

CRITERIOS DE EVALUACION

En caso que los resultados no sean los esperados y no logremos identificar las fuentes de error podemos pedirles que nos compartan el archivo .Rmd y ciertas bases de datos que vayan generando.

CONSIGNAS

En este trabajo deberán crear un modelo de regresión logística para clasificar si una persona que viajaba a bordo del Titanic sobrevivió o no.

El diccionario de datos se puede encontrar aquí

  1. Preparación de los datos
    1. Leer el archivo titanic_complete_train.csv y mostrar su estructura
    2. Seleccionar las variables PassengerId, Survived, Pclass, Sex, Age, SibSp,Parch, Fare y Embarked
    3. Transformar las variables Survived, Pclass y Embarked a factor
    4. Realizar un gráfico de ggpairs para las variables Survived, Pclass, Sex, Age y Fare e interpretarlo
    5. Mostrar la distribución de clase (Sobrevivientes vs No Sobrevivientes)
    6. Dividir al dataset en conjunto de entrenamiento (70% de los datos) y validación (30% de los datos). Volver a analizar la distribución de clase para chequear que sea aproximadamente igual entre ambos conjuntos y respecto a la distribución de clase que obtuvieron para todo el dataset en el punto 1)e)

    NOTA: Ya hemos imputado los valores faltantes de ciertas variables en este dataset

  2. Predicciones (Trabajar con dataset de ENTRENAMIENTO)
    1. Realizar un modelo de regresión logística para predecir la supervivencia en función de Pclass, Sex y Age. Usar solo el dataset de entrenamiento
    2. Dar una breve interpretación de los coeficientes y su significatividad
    3. ¿Quién tiene una mayor probabilidad de supervivencia? Rose que es una mujer de 17 años que viaja en primera clase o Jack que es un hombre de 20 años viajando en tercera clase

  3. Generación de modelos (Trabajar con dataset de ENTRENAMIENTO)
    1. Generar 3 modelos de regresión logística sobre el dataset de entrenamiento utilizando diferentes combinaciones de variables. Al menos dos modelos deben ser multivariados
    2. Ordenar por la deviance los 3 modelos creados en el punto 3)a) y el creado en el punto 2)a) y seleccionar el mejor modelo en términos de la deviance explicada
  4. Evaluación del modelo (Trabajar con dataset de ENTRENAMIENTO)
    1. Realizar el gráfico de curva ROC y obtener el AUC para el modelo elegido. Interpretar el gráfico
    2. Realizar un violin plot e interpretar
  5. Elección del punto corte (Trabajar con dataset de VALIDACION)
    1. Sobre el dataset de validación realizar un gráfico de Accuracy, Specificity, Recall y Precision en función del punto de corte
    2. Elegir un punto de corte y explicar su decisión
    3. Obtener la matriz de confusión con el modelo y punto de corte elegidos. Interpretarla
  6. Dataset de testeo (Trabajar con dataset de TESTEO)
    1. Leer el archivo titanic_complete_test.csv y transformar las variables Survived, Pclass y Embarked a factor
    2. Con el modelo y punto de corte elegidos clasificar a las personas del dataset de testing.
    3. Obtener la matriz de confusión y comparar con la obtenida en el punto 5)c).

    NOTA: Ya hemos imputado los valores faltantes de ciertas variables en este dataset

LS0tCnRpdGxlOiAiVFAgMzogUmVncmVzacOzbiBMb2fDrXN0aWNhIgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgpEYXRvcyBvYnRlbmlkb3MgZW4gW0thZ2dsZSAtIFRpdGFuaWM6IE1hY2hpbmUgTGVhcm5pbmcgZnJvbSBEaXNhc3Rlcl0oaHR0cHM6Ly93d3cua2FnZ2xlLmNvbS9jL3RpdGFuaWMvb3ZlcnZpZXcpCgojIyBJTlNUUlVDQ0lPTkVTCgpEZWJlcsOhbiByZWFsaXphciBlbCB0cmFiYWpvIGVuIHVuICoqUk5vdGVib29rKiogcHVibGljYWRvIGVuIFtSUHVic10oaHR0cDovL3JwdWJzLmNvbS8pLgoKRWwgKipSTm90ZWJvb2sqKiBkZWJlOgoKKiBUZW5lciBlbCBzaWd1aWVudGUgbm9tYnJlOiBlZWEyMDE5X3RwMV8oYXBlbGxpZG8pXyhub21icmUpCiogTW9zdHJhciB0b2RvIGVsIGPDs2RpZ28gcXVlIGVzY3JpYmFuLiBOTyBVU0FSIGBlY2hvPUZBTFNFYAoqIFNlciBvcmRlbmFkbyBkZSBhY3VlcmRvIGEgbGFzIGNvbnNpZ25hcyBwcm9wdWVzdGFzCgpVbmEgdmV6IHRlcm1pbmFkbyBlbCBub3RlYm9vayBkZWJlcsOhbiBzdWJpcmxvIGEgUlB1YnMgZSBpbmRpY2FyIGVsIGxpbmsgZW4gZWwgYXJjaGl2byBxdWUgbGVzIGNvbXBhcnRpcmVtb3MuCgojIyBDUklURVJJT1MgREUgRVZBTFVBQ0lPTgoKKiBFeHBsaWNhciBsb3MgcHJvY2VkaW1pZW50b3MgeSBkZWNpc2lvbmVzIGVuIGVsIHRleHRvCiogQ29tZW50YXIgZWwgY8OzZGlnbwoqIExsZWdhciBhIGxvcyByZXN1bHRhZG9zIGVzcGVyYWRvcwoqIFJlY29tZW5kYW1vcyBmdWVydGVtZW50ZSB1c2FyIGxhcyBmdW5jaW9uZXMgZGUgYHRpZHl2ZXJzZWAKKiBSZXNwZXRhciBlbCBwaXBlbGluZSBjb24gbG9zIGRhdGFzZXRzIGRlIGVudHJlbmFtaWVudG8sIHZhbGlkYWNpw7NuIHkgdGVzdGVvCgogICFbXSh0cmFpbl90ZXN0X2Vycm9yLnBuZyl7IGhlaWdodD03Y20gfQoKRW4gY2FzbyBxdWUgbG9zIHJlc3VsdGFkb3Mgbm8gc2VhbiBsb3MgZXNwZXJhZG9zIHkgbm8gbG9ncmVtb3MgaWRlbnRpZmljYXIgbGFzIGZ1ZW50ZXMgZGUgZXJyb3IgcG9kZW1vcyBwZWRpcmxlcyBxdWUgbm9zIGNvbXBhcnRhbiBlbCBhcmNoaXZvIC5SbWQgeSBjaWVydGFzIGJhc2VzIGRlIGRhdG9zIHF1ZSB2YXlhbiBnZW5lcmFuZG8uCgojIyBDT05TSUdOQVMKCkVuIGVzdGUgdHJhYmFqbyBkZWJlcsOhbiBjcmVhciB1biBtb2RlbG8gZGUgcmVncmVzacOzbiBsb2fDrXN0aWNhIHBhcmEgY2xhc2lmaWNhciBzaSB1bmEgcGVyc29uYSBxdWUgdmlhamFiYSBhIGJvcmRvIGRlbCBUaXRhbmljIHNvYnJldml2acOzIG8gbm8uIAoKRWwgZGljY2lvbmFyaW8gZGUgZGF0b3Mgc2UgcHVlZGUgZW5jb250cmFyIFthcXXDrV0oaHR0cHM6Ly93d3cua2FnZ2xlLmNvbS9jL3RpdGFuaWMvZGF0YSkKCjEpIFByZXBhcmFjacOzbiBkZSBsb3MgZGF0b3MKICAgIGEpIExlZXIgZWwgYXJjaGl2byAqdGl0YW5pY19jb21wbGV0ZV90cmFpbi5jc3YqIHkgbW9zdHJhciBzdSBlc3RydWN0dXJhCiAgICBiKSBTZWxlY2Npb25hciBsYXMgdmFyaWFibGVzICoqUGFzc2VuZ2VySWQqKiwgKipTdXJ2aXZlZCoqLCAqKlBjbGFzcyoqLCAqKlNleCoqLCAqKkFnZSoqLCAqKlNpYlNwKiosKipQYXJjaCoqLCAqKkZhcmUqKiB5ICoqRW1iYXJrZWQqKgogICAgYykgVHJhbnNmb3JtYXIgbGFzIHZhcmlhYmxlcyAqKlN1cnZpdmVkKiosICAqKlBjbGFzcyoqIHkgKipFbWJhcmtlZCoqIGEgZmFjdG9yCiAgICBkKSBSZWFsaXphciB1biBncsOhZmljbyBkZSBgZ2dwYWlyc2AgcGFyYSBsYXMgdmFyaWFibGVzICAqKlN1cnZpdmVkKiosICoqUGNsYXNzKiosICoqU2V4KiosICoqQWdlKiogeSAqKkZhcmUqKiBlIGludGVycHJldGFybG8KICAgIGUpIE1vc3RyYXIgbGEgZGlzdHJpYnVjacOzbiBkZSBjbGFzZSAoU29icmV2aXZpZW50ZXMgdnMgTm8gU29icmV2aXZpZW50ZXMpCiAgICBmKSBEaXZpZGlyIGFsIGRhdGFzZXQgZW4gY29uanVudG8gZGUgZW50cmVuYW1pZW50byAoNzAlIGRlIGxvcyBkYXRvcykgeSB2YWxpZGFjacOzbiAoMzAlIGRlIGxvcyBkYXRvcykuIFZvbHZlciBhIGFuYWxpemFyIGxhIGRpc3RyaWJ1Y2nDs24gZGUgY2xhc2UgcGFyYSBjaGVxdWVhciBxdWUgc2VhIGFwcm94aW1hZGFtZW50ZSBpZ3VhbCBlbnRyZSBhbWJvcyBjb25qdW50b3MgeSByZXNwZWN0byBhIGxhIGRpc3RyaWJ1Y2nDs24gZGUgY2xhc2UgcXVlIG9idHV2aWVyb24gcGFyYSB0b2RvIGVsIGRhdGFzZXQgZW4gZWwgcHVudG8gMSllKQogICAgCiAgICBOT1RBOiBZYSBoZW1vcyBpbXB1dGFkbyBsb3MgdmFsb3JlcyBmYWx0YW50ZXMgZGUgY2llcnRhcyB2YXJpYWJsZXMgZW4gZXN0ZSBkYXRhc2V0CgoyKSBQcmVkaWNjaW9uZXMgKFRyYWJhamFyIGNvbiBkYXRhc2V0IGRlICoqRU5UUkVOQU1JRU5UTyoqKQogICAgYSkgUmVhbGl6YXIgdW4gbW9kZWxvIGRlIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBwYXJhIHByZWRlY2lyIGxhIHN1cGVydml2ZW5jaWEgZW4gZnVuY2nDs24gZGUgKipQY2xhc3MqKiwgKipTZXgqKiB5ICoqQWdlKiouIFVzYXIgc29sbyBlbCBkYXRhc2V0IGRlIGVudHJlbmFtaWVudG8KICAgIGIpIERhciB1bmEgKipicmV2ZSBpbnRlcnByZXRhY2nDs24qKiBkZSBsb3MgY29lZmljaWVudGVzIHkgc3Ugc2lnbmlmaWNhdGl2aWRhZAogICAgYykgwr9RdWnDqW4gdGllbmUgdW5hIG1heW9yICoqcHJvYmFiaWxpZGFkIGRlIHN1cGVydml2ZW5jaWEqKj8gUm9zZSBxdWUgZXMgdW5hIG11amVyIGRlIDE3IGHDsW9zIHF1ZSB2aWFqYSBlbiBwcmltZXJhIGNsYXNlIG8gSmFjayBxdWUgZXMgdW4gaG9tYnJlIGRlIDIwIGHDsW9zIHZpYWphbmRvIGVuIHRlcmNlcmEgY2xhc2UKICAgIAogICAgICAgICAgIVtdKHJvc2VqYWNrMS5qcGcpeyBoZWlnaHQ9N2NtIH0gICAhW10ocm9zZWphY2syLmpwZyl7IGhlaWdodD03Y20gfQoKICAKMykgR2VuZXJhY2nDs24gZGUgbW9kZWxvcyAoVHJhYmFqYXIgY29uIGRhdGFzZXQgZGUgKipFTlRSRU5BTUlFTlRPKiopCiAgICBhKSBHZW5lcmFyICoqMyBtb2RlbG9zKiogZGUgcmVncmVzacOzbiBsb2fDrXN0aWNhIHNvYnJlIGVsIGRhdGFzZXQgZGUgZW50cmVuYW1pZW50byAqKnV0aWxpemFuZG8gZGlmZXJlbnRlcyBjb21iaW5hY2lvbmVzIGRlIHZhcmlhYmxlcyoqLiBBbCBtZW5vcyBkb3MgbW9kZWxvcyBkZWJlbiBzZXIgbXVsdGl2YXJpYWRvcwogICAgYikgT3JkZW5hciBwb3IgbGEgKipkZXZpYW5jZSoqIGxvcyAzIG1vZGVsb3MgY3JlYWRvcyBlbiBlbCBwdW50byAzKWEpIHkgZWwgY3JlYWRvIGVuIGVsIHB1bnRvIDIpYSkgeSBzZWxlY2Npb25hciBlbCBtZWpvciBtb2RlbG8gZW4gdMOpcm1pbm9zIGRlIGxhICoqZGV2aWFuY2UgZXhwbGljYWRhKioKCjQpIEV2YWx1YWNpw7NuIGRlbCBtb2RlbG8gKFRyYWJhamFyIGNvbiBkYXRhc2V0IGRlICoqRU5UUkVOQU1JRU5UTyoqKQogICAgYSkgUmVhbGl6YXIgZWwgZ3LDoWZpY28gZGUgKipjdXJ2YSBST0MqKiB5IG9idGVuZXIgZWwgKipBVUMqKiBwYXJhIGVsIG1vZGVsbyBlbGVnaWRvLiBJbnRlcnByZXRhciBlbCBncsOhZmljbwogICAgYikgUmVhbGl6YXIgdW4gKip2aW9saW4gcGxvdCoqIGUgaW50ZXJwcmV0YXIKCjUpIEVsZWNjacOzbiBkZWwgcHVudG8gY29ydGUgKFRyYWJhamFyIGNvbiBkYXRhc2V0IGRlICoqVkFMSURBQ0lPTioqKQogICAgYSkgU29icmUgZWwgZGF0YXNldCBkZSB2YWxpZGFjacOzbiByZWFsaXphciB1biBncsOhZmljbyBkZSAqKkFjY3VyYWN5LCBTcGVjaWZpY2l0eSwgUmVjYWxsIHkgUHJlY2lzaW9uKiogZW4gZnVuY2nDs24gZGVsIHB1bnRvIGRlIGNvcnRlCiAgICBiKSBFbGVnaXIgdW4gKipwdW50byBkZSBjb3J0ZSoqIHkgZXhwbGljYXIgc3UgZGVjaXNpw7NuCiAgICBjKSBPYnRlbmVyIGxhICoqbWF0cml6IGRlIGNvbmZ1c2nDs24qKiBjb24gZWwgbW9kZWxvIHkgcHVudG8gZGUgY29ydGUgZWxlZ2lkb3MuIEludGVycHJldGFybGEKCjYpIERhdGFzZXQgZGUgdGVzdGVvIChUcmFiYWphciBjb24gZGF0YXNldCBkZSAqKlRFU1RFTyoqKQogICAgYSkgTGVlciBlbCBhcmNoaXZvICp0aXRhbmljX2NvbXBsZXRlX3Rlc3QuY3N2KiB5IHRyYW5zZm9ybWFyIGxhcyB2YXJpYWJsZXMgKipTdXJ2aXZlZCoqLCAgKipQY2xhc3MqKiB5ICoqRW1iYXJrZWQqKiBhIGZhY3RvcgogICAgYikgQ29uIGVsIG1vZGVsbyB5IHB1bnRvIGRlIGNvcnRlIGVsZWdpZG9zICoqY2xhc2lmaWNhcioqIGEgbGFzIHBlcnNvbmFzIGRlbCBkYXRhc2V0IGRlIHRlc3RpbmcuCiAgICBjKSBPYnRlbmVyIGxhICoqbWF0cml6IGRlIGNvbmZ1c2nDs24qKiB5IGNvbXBhcmFyIGNvbiBsYSBvYnRlbmlkYSBlbiBlbCBwdW50byA1KWMpLgogICAgCiAgICBOT1RBOiBZYSBoZW1vcyBpbXB1dGFkbyBsb3MgdmFsb3JlcyBmYWx0YW50ZXMgZGUgY2llcnRhcyB2YXJpYWJsZXMgZW4gZXN0ZSBkYXRhc2V0