Para este ejercicio van a utilizar el dataset de Titanic de Kaggle. El mismo consiste en 2 datasets: uno de entrenamiento y otro de testeo.

El objetivo es crear un modelo usando una regresión logística para predecir que pasajeros van a sobrevivir o no. Además tienen algunas preguntas para reforzar conceptos vistos en clase.

Información del dataset

Cuadro variables

Lectura y analisis exploratorio

  1. Carguen ambos datasets
  2. Analicen su estructura
  3. Revisen si existen valores faltantes y cual podria ser una estrategia para trabajar con ellos
  4. Analicen cual es la cardinalidad (cantidad de valores distintos) de las variables nominales
  5. Analcen la distribución de la clase.
train <- read.csv('train.csv')
test <- read.csv('test.csv')

Graficos

Analicen las relaciones entre las variables con algunos graficos que les resulten interesantes (recuerden funciones como GGAlly)

Modelos iniciales

Para este caso eliminen los registros que poseen valores faltantes

  1. Realicen los siguientes modelos:
  1. edad= modelo solo con la edad (Age)
  2. clase = modelo solo con la clase (Pclass)
  3. edad+tarifa = modelo con la edad y la tarifa (Fare)
  4. edad+tarifa+genero = modelo con la edad, la tarifa y el genero
  1. Obtengan los valores de las estimaciones de los parametros para cada modelo
  1. Ordenen los modelos por la deviance explicada

Modelos propios

  1. En base a lo que obtuvieron de los análisis iniciales:

Recuerden que todas estas modificaciones deben realizarse en ambos datasets

  1. Opcional Evaluar la importancia de las variables. Por ejemplo con Information Value

  2. Realicen al menos 3 modelos de regresión logística con distintas variables. Recuerden usar las funciones formula y map

Diagnóstico

El criterio que vamos a utilizar para evaluar los modelos es la deviance explicada.

  1. Evaluen las métricas de diagnóstico para sus modelos

  2. Examinen los coeficientes estimados de sus 2 mejores modelos y del peor modelo

  3. Realicen los siguientes gráficos para los 3 modelos del punto anterior:

Elección del modelo y punto de corte

  1. Elijan un modelo y obtengan su AUC
  2. Definan un punto de corte y obtengan el accuracy

Predicción en el dataset de test

  1. Apliquen el modelo creado en el dataset de test y obtengan su AUC
  2. Clasifiquen a las personas de acuerdo al punto elegido y obtengan su accuracy
LS0tCnRpdGxlOiAiRWplcmNpY2lvIExvZ2lzdGljYTogVGl0YW5pYyIKb3V0cHV0OiBodG1sX25vdGVib29rCmF1dGhvcjogIkp1YW4gTWFudWVsIEJhcnJpb2xhIHkgRGllZ28gS296bG93c2tpIgpkYXRlOiAxNi0xMC0yMDE4IAotLS0KClBhcmEgZXN0ZSBlamVyY2ljaW8gdmFuIGEgdXRpbGl6YXIgZWwgZGF0YXNldCBkZSBUaXRhbmljIGRlIEthZ2dsZS4gRWwgbWlzbW8gY29uc2lzdGUgZW4gMiBkYXRhc2V0czogdW5vIGRlIGVudHJlbmFtaWVudG8geSBvdHJvIGRlIHRlc3Rlby4KCkVsIG9iamV0aXZvIGVzIGNyZWFyIHVuIG1vZGVsbyB1c2FuZG8gdW5hIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBwYXJhIHByZWRlY2lyIHF1ZSBwYXNhamVyb3MgdmFuIGEgc29icmV2aXZpciBvIG5vLiBBZGVtw6FzIHRpZW5lbiBhbGd1bmFzIHByZWd1bnRhcyBwYXJhIHJlZm9yemFyIGNvbmNlcHRvcyB2aXN0b3MgZW4gY2xhc2UuCgojIyBJbmZvcm1hY2nDs24gZGVsIGRhdGFzZXQKCkN1YWRybyB2YXJpYWJsZXMKCiMjIExlY3R1cmEgeSBhbmFsaXNpcyBleHBsb3JhdG9yaW8KCjEpIENhcmd1ZW4gYW1ib3MgZGF0YXNldHMKMikgQW5hbGljZW4gc3UgZXN0cnVjdHVyYQozKSBSZXZpc2VuIHNpIGV4aXN0ZW4gdmFsb3JlcyBmYWx0YW50ZXMgeSBjdWFsIHBvZHJpYSBzZXIgdW5hIGVzdHJhdGVnaWEgcGFyYSB0cmFiYWphciBjb24gZWxsb3MKNCkgQW5hbGljZW4gY3VhbCBlcyBsYSBjYXJkaW5hbGlkYWQgKGNhbnRpZGFkIGRlIHZhbG9yZXMgZGlzdGludG9zKSBkZSBsYXMgdmFyaWFibGVzIG5vbWluYWxlcwo1KSBBbmFsY2VuIGxhIGRpc3RyaWJ1Y2nDs24gZGUgbGEgY2xhc2UuCgpgYGB7cn0KdHJhaW4gPC0gcmVhZC5jc3YoJ3RyYWluLmNzdicpCnRlc3QgPC0gcmVhZC5jc3YoJ3Rlc3QuY3N2JykKCmBgYAoKIyMjIEdyYWZpY29zCgpBbmFsaWNlbiBsYXMgcmVsYWNpb25lcyBlbnRyZSBsYXMgdmFyaWFibGVzIGNvbiBhbGd1bm9zIGdyYWZpY29zIHF1ZSBsZXMgcmVzdWx0ZW4gaW50ZXJlc2FudGVzIChyZWN1ZXJkZW4gZnVuY2lvbmVzIGNvbW8gR0dBbGx5KQoKIyMgTW9kZWxvcyBpbmljaWFsZXMKClBhcmEgZXN0ZSBjYXNvIGVsaW1pbmVuIGxvcyByZWdpc3Ryb3MgcXVlIHBvc2VlbiB2YWxvcmVzIGZhbHRhbnRlcyAKCjEpIFJlYWxpY2VuIGxvcyBzaWd1aWVudGVzIG1vZGVsb3M6CgphKSBlZGFkPSBtb2RlbG8gc29sbyBjb24gbGEgZWRhZCAoQWdlKQpiKSBjbGFzZSA9IG1vZGVsbyBzb2xvIGNvbiBsYSBjbGFzZSAoUGNsYXNzKQpjKSBlZGFkK3RhcmlmYSA9IG1vZGVsbyBjb24gbGEgZWRhZCB5IGxhIHRhcmlmYSAoRmFyZSkKZCkgZWRhZCt0YXJpZmErZ2VuZXJvID0gbW9kZWxvIGNvbiBsYSBlZGFkLCBsYSB0YXJpZmEgeSBlbCBnZW5lcm8KCjIpIE9idGVuZ2FuIGxvcyB2YWxvcmVzIGRlIGxhcyBlc3RpbWFjaW9uZXMgZGUgbG9zIHBhcmFtZXRyb3MgcGFyYSBjYWRhIG1vZGVsbwoKICAtIE9idGVuZ2FuIGxhIHByb2JhYmlsaWRhZCBkZSBzdXBlcnZpdmVuY2lhIHNlZ3VuIGxvcyBjdWF0cm8gbW9kZWxvcyBkZSB1bmEgcGVyc29uYSBxdWUgdGllbmUgMzUgYcOxb3MsIGVzIG11amVyLCBwYWdvIHVuYSB0YXJpZmEgZGUgJDQwIHkgdmlhamEgZW4gc2VndW5kYSBjbGFzZQoKICAtIE9idGVuZ2FuIGxhcyBvZGRzIHNlZ3VuIGxvcyBjdWF0cm8gbW9kZWxvcyBwYXJhIGxhIG1pc21hIHBlcnNvbmEKCjMpIE9yZGVuZW4gbG9zIG1vZGVsb3MgcG9yIGxhIGRldmlhbmNlIGV4cGxpY2FkYQoKIyMgTW9kZWxvcyBwcm9waW9zCgoxKSBFbiBiYXNlIGEgbG8gcXVlIG9idHV2aWVyb24gZGUgbG9zIGFuw6FsaXNpcyBpbmljaWFsZXM6CgotIEVsaWphbiBhbGd1bmEgZXN0cmF0ZWdpYSBwYXJhIGxpZGlhciBjb24gbG9zIHZhbG9yZXMgZmFsdGFudGVzIChlbGltaW5hciByZWdpc3Ryb3MsIGltcHV0YXIgbWVkaWEsIGltcHV0YXIgbWVkaWEgcG9yIGNsYXNlLCBldGMpCi0gTW9kaWZpcXVlbiB2YXJpYWJsZXMgZXhpc3RlbnRlcyBvIGNyZWVuIGFsZ3VuYXMgdmFyYWlibGVzIG51ZXZhcyBzaSBsbyBjb25zaWRlcmFuIHJlbGV2YW50ZS4gUG9yIGVqZW1wbG86IHNlIHBvZHLDrWEgZGlzY3JldGl6YXIgbGEgZWRhZCBvIGNvbW8gaGljaWVyb24gYWxndW5hcyBwZXJzb25hcyBkZSBLYWdnbGUgZXh0cmFlciBpbmZvcm1hY2nDs24gZGUgbG9zIG5vbWJyZXMuCgpSZWN1ZXJkZW4gcXVlIHRvZGFzIGVzdGFzIG1vZGlmaWNhY2lvbmVzIGRlYmVuIHJlYWxpemFyc2UgZW4gYW1ib3MgZGF0YXNldHMKCjIpICoqT3BjaW9uYWwqKiBFdmFsdWFyIGxhIGltcG9ydGFuY2lhIGRlIGxhcyB2YXJpYWJsZXMuIFBvciBlamVtcGxvIGNvbiBJbmZvcm1hdGlvbiBWYWx1ZQoKMykgUmVhbGljZW4gYWwgbWVub3MgMyBtb2RlbG9zIGRlIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBjb24gZGlzdGludGFzIHZhcmlhYmxlcy4gUmVjdWVyZGVuIHVzYXIgbGFzIGZ1bmNpb25lcyBgZm9ybXVsYWAgeSBgbWFwYAoKIyMgRGlhZ27Ds3N0aWNvCgpFbCBjcml0ZXJpbyBxdWUgdmFtb3MgYSB1dGlsaXphciBwYXJhIGV2YWx1YXIgbG9zIG1vZGVsb3MgZXMgbGEgZGV2aWFuY2UgZXhwbGljYWRhLgoKMSkgRXZhbHVlbiBsYXMgbcOpdHJpY2FzIGRlIGRpYWduw7NzdGljbyBwYXJhIHN1cyBtb2RlbG9zCgoyKSBFeGFtaW5lbiBsb3MgY29lZmljaWVudGVzIGVzdGltYWRvcyBkZSBzdXMgMiBtZWpvcmVzIG1vZGVsb3MgeSBkZWwgcGVvciBtb2RlbG8KCjMpIFJlYWxpY2VuIGxvcyBzaWd1aWVudGVzIGdyw6FmaWNvcyBwYXJhIGxvcyAzIG1vZGVsb3MgZGVsIHB1bnRvIGFudGVyaW9yOgogIC0gVmlvbGluLXBsb3QKICAtIEN1cnZhIFJPQwogIC0gSG9zbWVyLUxlbWVzaG93CgojIyBFbGVjY2nDs24gZGVsIG1vZGVsbyB5IHB1bnRvIGRlIGNvcnRlCgoxKSBFbGlqYW4gdW4gbW9kZWxvIHkgb2J0ZW5nYW4gc3UgQVVDCjIpIERlZmluYW4gdW4gcHVudG8gZGUgY29ydGUgeSBvYnRlbmdhbiBlbCBhY2N1cmFjeQoKIyMgUHJlZGljY2nDs24gZW4gZWwgZGF0YXNldCBkZSB0ZXN0CgoxKSBBcGxpcXVlbiBlbCBtb2RlbG8gY3JlYWRvIGVuIGVsIGRhdGFzZXQgZGUgdGVzdCB5IG9idGVuZ2FuIHN1IEFVQwoyKSBDbGFzaWZpcXVlbiBhIGxhcyBwZXJzb25hcyBkZSBhY3VlcmRvIGFsIHB1bnRvIGVsZWdpZG8geSBvYnRlbmdhbiBzdSBhY2N1cmFjeSAKCgo=