Ejercicio Logistica: Titanic

Para este ejercicio van a utilizar el dataset de Titanic de Kaggle. El mismo consiste en 2 datasets: uno de entrenamiento y otro de testeo.

El objetivo es crear un modelo usando una regresión logística para predecir que pasajeros van a sobrevivir o no. Además tienen algunas preguntas para reforzar conceptos vistos en clase.

Información del dataset

Cuadro variables

Lectura y analisis exploratorio

Carguen ambos datasets
Analicen su estructura
Revisen si existen valores faltantes y cual podria ser una estrategia para trabajar con ellos
Analicen cual es la cardinalidad (cantidad de valores distintos) de las variables nominales
Analcen la distribución de la clase.

train <- read.csv('train.csv')
test <- read.csv('test.csv')

Graficos

Analicen las relaciones entre las variables con algunos graficos que les resulten interesantes (recuerden funciones como GGAlly)

Modelos iniciales

Para este caso eliminen los registros que poseen valores faltantes

Realicen los siguientes modelos:

edad= modelo solo con la edad (Age)
clase = modelo solo con la clase (Pclass)
edad+tarifa = modelo con la edad y la tarifa (Fare)
edad+tarifa+genero = modelo con la edad, la tarifa y el genero

Obtengan los valores de las estimaciones de los parametros para cada modelo

Obtengan la probabilidad de supervivencia segun los cuatro modelos de una persona que tiene 35 años, es mujer, pago una tarifa de $40 y viaja en segunda clase
Obtengan las odds segun los cuatro modelos para la misma persona

Ordenen los modelos por la deviance explicada

Modelos propios

En base a lo que obtuvieron de los análisis iniciales:

Elijan alguna estrategia para lidiar con los valores faltantes (eliminar registros, imputar media, imputar media por clase, etc)
Modifiquen variables existentes o creen algunas varaibles nuevas si lo consideran relevante. Por ejemplo: se podría discretizar la edad o como hicieron algunas personas de Kaggle extraer información de los nombres.

Recuerden que todas estas modificaciones deben realizarse en ambos datasets

Opcional Evaluar la importancia de las variables. Por ejemplo con Information Value
Realicen al menos 3 modelos de regresión logística con distintas variables. Recuerden usar las funciones formula y map

Diagnóstico

El criterio que vamos a utilizar para evaluar los modelos es la deviance explicada.

Evaluen las métricas de diagnóstico para sus modelos
Examinen los coeficientes estimados de sus 2 mejores modelos y del peor modelo
Realicen los siguientes gráficos para los 3 modelos del punto anterior:

Violin-plot
Curva ROC
Hosmer-Lemeshow

Elección del modelo y punto de corte

Elijan un modelo y obtengan su AUC
Definan un punto de corte y obtengan el accuracy

Predicción en el dataset de test

Apliquen el modelo creado en el dataset de test y obtengan su AUC
Clasifiquen a las personas de acuerdo al punto elegido y obtengan su accuracy

LS0tCnRpdGxlOiAiRWplcmNpY2lvIExvZ2lzdGljYTogVGl0YW5pYyIKb3V0cHV0OiBodG1sX25vdGVib29rCmF1dGhvcjogIkp1YW4gTWFudWVsIEJhcnJpb2xhIHkgRGllZ28gS296bG93c2tpIgpkYXRlOiAxNi0xMC0yMDE4IAotLS0KClBhcmEgZXN0ZSBlamVyY2ljaW8gdmFuIGEgdXRpbGl6YXIgZWwgZGF0YXNldCBkZSBUaXRhbmljIGRlIEthZ2dsZS4gRWwgbWlzbW8gY29uc2lzdGUgZW4gMiBkYXRhc2V0czogdW5vIGRlIGVudHJlbmFtaWVudG8geSBvdHJvIGRlIHRlc3Rlby4KCkVsIG9iamV0aXZvIGVzIGNyZWFyIHVuIG1vZGVsbyB1c2FuZG8gdW5hIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBwYXJhIHByZWRlY2lyIHF1ZSBwYXNhamVyb3MgdmFuIGEgc29icmV2aXZpciBvIG5vLiBBZGVtw6FzIHRpZW5lbiBhbGd1bmFzIHByZWd1bnRhcyBwYXJhIHJlZm9yemFyIGNvbmNlcHRvcyB2aXN0b3MgZW4gY2xhc2UuCgojIyBJbmZvcm1hY2nDs24gZGVsIGRhdGFzZXQKCkN1YWRybyB2YXJpYWJsZXMKCiMjIExlY3R1cmEgeSBhbmFsaXNpcyBleHBsb3JhdG9yaW8KCjEpIENhcmd1ZW4gYW1ib3MgZGF0YXNldHMKMikgQW5hbGljZW4gc3UgZXN0cnVjdHVyYQozKSBSZXZpc2VuIHNpIGV4aXN0ZW4gdmFsb3JlcyBmYWx0YW50ZXMgeSBjdWFsIHBvZHJpYSBzZXIgdW5hIGVzdHJhdGVnaWEgcGFyYSB0cmFiYWphciBjb24gZWxsb3MKNCkgQW5hbGljZW4gY3VhbCBlcyBsYSBjYXJkaW5hbGlkYWQgKGNhbnRpZGFkIGRlIHZhbG9yZXMgZGlzdGludG9zKSBkZSBsYXMgdmFyaWFibGVzIG5vbWluYWxlcwo1KSBBbmFsY2VuIGxhIGRpc3RyaWJ1Y2nDs24gZGUgbGEgY2xhc2UuCgpgYGB7cn0KdHJhaW4gPC0gcmVhZC5jc3YoJ3RyYWluLmNzdicpCnRlc3QgPC0gcmVhZC5jc3YoJ3Rlc3QuY3N2JykKCmBgYAoKIyMjIEdyYWZpY29zCgpBbmFsaWNlbiBsYXMgcmVsYWNpb25lcyBlbnRyZSBsYXMgdmFyaWFibGVzIGNvbiBhbGd1bm9zIGdyYWZpY29zIHF1ZSBsZXMgcmVzdWx0ZW4gaW50ZXJlc2FudGVzIChyZWN1ZXJkZW4gZnVuY2lvbmVzIGNvbW8gR0dBbGx5KQoKIyMgTW9kZWxvcyBpbmljaWFsZXMKClBhcmEgZXN0ZSBjYXNvIGVsaW1pbmVuIGxvcyByZWdpc3Ryb3MgcXVlIHBvc2VlbiB2YWxvcmVzIGZhbHRhbnRlcyAKCjEpIFJlYWxpY2VuIGxvcyBzaWd1aWVudGVzIG1vZGVsb3M6CgphKSBlZGFkPSBtb2RlbG8gc29sbyBjb24gbGEgZWRhZCAoQWdlKQpiKSBjbGFzZSA9IG1vZGVsbyBzb2xvIGNvbiBsYSBjbGFzZSAoUGNsYXNzKQpjKSBlZGFkK3RhcmlmYSA9IG1vZGVsbyBjb24gbGEgZWRhZCB5IGxhIHRhcmlmYSAoRmFyZSkKZCkgZWRhZCt0YXJpZmErZ2VuZXJvID0gbW9kZWxvIGNvbiBsYSBlZGFkLCBsYSB0YXJpZmEgeSBlbCBnZW5lcm8KCjIpIE9idGVuZ2FuIGxvcyB2YWxvcmVzIGRlIGxhcyBlc3RpbWFjaW9uZXMgZGUgbG9zIHBhcmFtZXRyb3MgcGFyYSBjYWRhIG1vZGVsbwoKICAtIE9idGVuZ2FuIGxhIHByb2JhYmlsaWRhZCBkZSBzdXBlcnZpdmVuY2lhIHNlZ3VuIGxvcyBjdWF0cm8gbW9kZWxvcyBkZSB1bmEgcGVyc29uYSBxdWUgdGllbmUgMzUgYcOxb3MsIGVzIG11amVyLCBwYWdvIHVuYSB0YXJpZmEgZGUgJDQwIHkgdmlhamEgZW4gc2VndW5kYSBjbGFzZQoKICAtIE9idGVuZ2FuIGxhcyBvZGRzIHNlZ3VuIGxvcyBjdWF0cm8gbW9kZWxvcyBwYXJhIGxhIG1pc21hIHBlcnNvbmEKCjMpIE9yZGVuZW4gbG9zIG1vZGVsb3MgcG9yIGxhIGRldmlhbmNlIGV4cGxpY2FkYQoKIyMgTW9kZWxvcyBwcm9waW9zCgoxKSBFbiBiYXNlIGEgbG8gcXVlIG9idHV2aWVyb24gZGUgbG9zIGFuw6FsaXNpcyBpbmljaWFsZXM6CgotIEVsaWphbiBhbGd1bmEgZXN0cmF0ZWdpYSBwYXJhIGxpZGlhciBjb24gbG9zIHZhbG9yZXMgZmFsdGFudGVzIChlbGltaW5hciByZWdpc3Ryb3MsIGltcHV0YXIgbWVkaWEsIGltcHV0YXIgbWVkaWEgcG9yIGNsYXNlLCBldGMpCi0gTW9kaWZpcXVlbiB2YXJpYWJsZXMgZXhpc3RlbnRlcyBvIGNyZWVuIGFsZ3VuYXMgdmFyYWlibGVzIG51ZXZhcyBzaSBsbyBjb25zaWRlcmFuIHJlbGV2YW50ZS4gUG9yIGVqZW1wbG86IHNlIHBvZHLDrWEgZGlzY3JldGl6YXIgbGEgZWRhZCBvIGNvbW8gaGljaWVyb24gYWxndW5hcyBwZXJzb25hcyBkZSBLYWdnbGUgZXh0cmFlciBpbmZvcm1hY2nDs24gZGUgbG9zIG5vbWJyZXMuCgpSZWN1ZXJkZW4gcXVlIHRvZGFzIGVzdGFzIG1vZGlmaWNhY2lvbmVzIGRlYmVuIHJlYWxpemFyc2UgZW4gYW1ib3MgZGF0YXNldHMKCjIpICoqT3BjaW9uYWwqKiBFdmFsdWFyIGxhIGltcG9ydGFuY2lhIGRlIGxhcyB2YXJpYWJsZXMuIFBvciBlamVtcGxvIGNvbiBJbmZvcm1hdGlvbiBWYWx1ZQoKMykgUmVhbGljZW4gYWwgbWVub3MgMyBtb2RlbG9zIGRlIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBjb24gZGlzdGludGFzIHZhcmlhYmxlcy4gUmVjdWVyZGVuIHVzYXIgbGFzIGZ1bmNpb25lcyBgZm9ybXVsYWAgeSBgbWFwYAoKIyMgRGlhZ27Ds3N0aWNvCgpFbCBjcml0ZXJpbyBxdWUgdmFtb3MgYSB1dGlsaXphciBwYXJhIGV2YWx1YXIgbG9zIG1vZGVsb3MgZXMgbGEgZGV2aWFuY2UgZXhwbGljYWRhLgoKMSkgRXZhbHVlbiBsYXMgbcOpdHJpY2FzIGRlIGRpYWduw7NzdGljbyBwYXJhIHN1cyBtb2RlbG9zCgoyKSBFeGFtaW5lbiBsb3MgY29lZmljaWVudGVzIGVzdGltYWRvcyBkZSBzdXMgMiBtZWpvcmVzIG1vZGVsb3MgeSBkZWwgcGVvciBtb2RlbG8KCjMpIFJlYWxpY2VuIGxvcyBzaWd1aWVudGVzIGdyw6FmaWNvcyBwYXJhIGxvcyAzIG1vZGVsb3MgZGVsIHB1bnRvIGFudGVyaW9yOgogIC0gVmlvbGluLXBsb3QKICAtIEN1cnZhIFJPQwogIC0gSG9zbWVyLUxlbWVzaG93CgojIyBFbGVjY2nDs24gZGVsIG1vZGVsbyB5IHB1bnRvIGRlIGNvcnRlCgoxKSBFbGlqYW4gdW4gbW9kZWxvIHkgb2J0ZW5nYW4gc3UgQVVDCjIpIERlZmluYW4gdW4gcHVudG8gZGUgY29ydGUgeSBvYnRlbmdhbiBlbCBhY2N1cmFjeQoKIyMgUHJlZGljY2nDs24gZW4gZWwgZGF0YXNldCBkZSB0ZXN0CgoxKSBBcGxpcXVlbiBlbCBtb2RlbG8gY3JlYWRvIGVuIGVsIGRhdGFzZXQgZGUgdGVzdCB5IG9idGVuZ2FuIHN1IEFVQwoyKSBDbGFzaWZpcXVlbiBhIGxhcyBwZXJzb25hcyBkZSBhY3VlcmRvIGFsIHB1bnRvIGVsZWdpZG8geSBvYnRlbmdhbiBzdSBhY2N1cmFjeSAKCgo=