Para este ejercicio van a utilizar el dataset de Titanic de Kaggle. El mismo consiste en 2 datasets: uno de entrenamiento y otro de testeo.
El objetivo es crear un modelo usando una regresión logística para predecir que pasajeros van a sobrevivir o no. Además tienen algunas preguntas para reforzar conceptos vistos en clase.
Lectura y analisis exploratorio
- Carguen ambos datasets
- Analicen su estructura
- Revisen si existen valores faltantes y cual podria ser una estrategia para trabajar con ellos
- Analicen cual es la cardinalidad (cantidad de valores distintos) de las variables nominales
- Analcen la distribución de la clase.
train <- read.csv('train.csv')
test <- read.csv('test.csv')
Graficos
Analicen las relaciones entre las variables con algunos graficos que les resulten interesantes (recuerden funciones como GGAlly)
Modelos iniciales
Para este caso eliminen los registros que poseen valores faltantes
- Realicen los siguientes modelos:
- edad= modelo solo con la edad (Age)
- clase = modelo solo con la clase (Pclass)
- edad+tarifa = modelo con la edad y la tarifa (Fare)
- edad+tarifa+genero = modelo con la edad, la tarifa y el genero
- Obtengan los valores de las estimaciones de los parametros para cada modelo
Obtengan la probabilidad de supervivencia segun los cuatro modelos de una persona que tiene 35 años, es mujer, pago una tarifa de $40 y viaja en segunda clase
Obtengan las odds segun los cuatro modelos para la misma persona
- Ordenen los modelos por la deviance explicada
Modelos propios
- En base a lo que obtuvieron de los análisis iniciales:
- Elijan alguna estrategia para lidiar con los valores faltantes (eliminar registros, imputar media, imputar media por clase, etc)
- Modifiquen variables existentes o creen algunas varaibles nuevas si lo consideran relevante. Por ejemplo: se podría discretizar la edad o como hicieron algunas personas de Kaggle extraer información de los nombres.
Recuerden que todas estas modificaciones deben realizarse en ambos datasets
Opcional Evaluar la importancia de las variables. Por ejemplo con Information Value
Realicen al menos 3 modelos de regresión logística con distintas variables. Recuerden usar las funciones formula
y map
Diagnóstico
El criterio que vamos a utilizar para evaluar los modelos es la deviance explicada.
Evaluen las métricas de diagnóstico para sus modelos
Examinen los coeficientes estimados de sus 2 mejores modelos y del peor modelo
- Realicen los siguientes gráficos para los 3 modelos del punto anterior:
- Violin-plot
- Curva ROC
- Hosmer-Lemeshow
Elección del modelo y punto de corte
- Elijan un modelo y obtengan su AUC
- Definan un punto de corte y obtengan el accuracy
Predicción en el dataset de test
- Apliquen el modelo creado en el dataset de test y obtengan su AUC
- Clasifiquen a las personas de acuerdo al punto elegido y obtengan su accuracy
LS0tCnRpdGxlOiAiRWplcmNpY2lvIExvZ2lzdGljYTogVGl0YW5pYyIKb3V0cHV0OiBodG1sX25vdGVib29rCmF1dGhvcjogIkp1YW4gTWFudWVsIEJhcnJpb2xhIHkgRGllZ28gS296bG93c2tpIgpkYXRlOiAxNi0xMC0yMDE4IAotLS0KClBhcmEgZXN0ZSBlamVyY2ljaW8gdmFuIGEgdXRpbGl6YXIgZWwgZGF0YXNldCBkZSBUaXRhbmljIGRlIEthZ2dsZS4gRWwgbWlzbW8gY29uc2lzdGUgZW4gMiBkYXRhc2V0czogdW5vIGRlIGVudHJlbmFtaWVudG8geSBvdHJvIGRlIHRlc3Rlby4KCkVsIG9iamV0aXZvIGVzIGNyZWFyIHVuIG1vZGVsbyB1c2FuZG8gdW5hIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBwYXJhIHByZWRlY2lyIHF1ZSBwYXNhamVyb3MgdmFuIGEgc29icmV2aXZpciBvIG5vLiBBZGVtw6FzIHRpZW5lbiBhbGd1bmFzIHByZWd1bnRhcyBwYXJhIHJlZm9yemFyIGNvbmNlcHRvcyB2aXN0b3MgZW4gY2xhc2UuCgojIyBJbmZvcm1hY2nDs24gZGVsIGRhdGFzZXQKCkN1YWRybyB2YXJpYWJsZXMKCiMjIExlY3R1cmEgeSBhbmFsaXNpcyBleHBsb3JhdG9yaW8KCjEpIENhcmd1ZW4gYW1ib3MgZGF0YXNldHMKMikgQW5hbGljZW4gc3UgZXN0cnVjdHVyYQozKSBSZXZpc2VuIHNpIGV4aXN0ZW4gdmFsb3JlcyBmYWx0YW50ZXMgeSBjdWFsIHBvZHJpYSBzZXIgdW5hIGVzdHJhdGVnaWEgcGFyYSB0cmFiYWphciBjb24gZWxsb3MKNCkgQW5hbGljZW4gY3VhbCBlcyBsYSBjYXJkaW5hbGlkYWQgKGNhbnRpZGFkIGRlIHZhbG9yZXMgZGlzdGludG9zKSBkZSBsYXMgdmFyaWFibGVzIG5vbWluYWxlcwo1KSBBbmFsY2VuIGxhIGRpc3RyaWJ1Y2nDs24gZGUgbGEgY2xhc2UuCgpgYGB7cn0KdHJhaW4gPC0gcmVhZC5jc3YoJ3RyYWluLmNzdicpCnRlc3QgPC0gcmVhZC5jc3YoJ3Rlc3QuY3N2JykKCmBgYAoKIyMjIEdyYWZpY29zCgpBbmFsaWNlbiBsYXMgcmVsYWNpb25lcyBlbnRyZSBsYXMgdmFyaWFibGVzIGNvbiBhbGd1bm9zIGdyYWZpY29zIHF1ZSBsZXMgcmVzdWx0ZW4gaW50ZXJlc2FudGVzIChyZWN1ZXJkZW4gZnVuY2lvbmVzIGNvbW8gR0dBbGx5KQoKIyMgTW9kZWxvcyBpbmljaWFsZXMKClBhcmEgZXN0ZSBjYXNvIGVsaW1pbmVuIGxvcyByZWdpc3Ryb3MgcXVlIHBvc2VlbiB2YWxvcmVzIGZhbHRhbnRlcyAKCjEpIFJlYWxpY2VuIGxvcyBzaWd1aWVudGVzIG1vZGVsb3M6CgphKSBlZGFkPSBtb2RlbG8gc29sbyBjb24gbGEgZWRhZCAoQWdlKQpiKSBjbGFzZSA9IG1vZGVsbyBzb2xvIGNvbiBsYSBjbGFzZSAoUGNsYXNzKQpjKSBlZGFkK3RhcmlmYSA9IG1vZGVsbyBjb24gbGEgZWRhZCB5IGxhIHRhcmlmYSAoRmFyZSkKZCkgZWRhZCt0YXJpZmErZ2VuZXJvID0gbW9kZWxvIGNvbiBsYSBlZGFkLCBsYSB0YXJpZmEgeSBlbCBnZW5lcm8KCjIpIE9idGVuZ2FuIGxvcyB2YWxvcmVzIGRlIGxhcyBlc3RpbWFjaW9uZXMgZGUgbG9zIHBhcmFtZXRyb3MgcGFyYSBjYWRhIG1vZGVsbwoKICAtIE9idGVuZ2FuIGxhIHByb2JhYmlsaWRhZCBkZSBzdXBlcnZpdmVuY2lhIHNlZ3VuIGxvcyBjdWF0cm8gbW9kZWxvcyBkZSB1bmEgcGVyc29uYSBxdWUgdGllbmUgMzUgYcOxb3MsIGVzIG11amVyLCBwYWdvIHVuYSB0YXJpZmEgZGUgJDQwIHkgdmlhamEgZW4gc2VndW5kYSBjbGFzZQoKICAtIE9idGVuZ2FuIGxhcyBvZGRzIHNlZ3VuIGxvcyBjdWF0cm8gbW9kZWxvcyBwYXJhIGxhIG1pc21hIHBlcnNvbmEKCjMpIE9yZGVuZW4gbG9zIG1vZGVsb3MgcG9yIGxhIGRldmlhbmNlIGV4cGxpY2FkYQoKIyMgTW9kZWxvcyBwcm9waW9zCgoxKSBFbiBiYXNlIGEgbG8gcXVlIG9idHV2aWVyb24gZGUgbG9zIGFuw6FsaXNpcyBpbmljaWFsZXM6CgotIEVsaWphbiBhbGd1bmEgZXN0cmF0ZWdpYSBwYXJhIGxpZGlhciBjb24gbG9zIHZhbG9yZXMgZmFsdGFudGVzIChlbGltaW5hciByZWdpc3Ryb3MsIGltcHV0YXIgbWVkaWEsIGltcHV0YXIgbWVkaWEgcG9yIGNsYXNlLCBldGMpCi0gTW9kaWZpcXVlbiB2YXJpYWJsZXMgZXhpc3RlbnRlcyBvIGNyZWVuIGFsZ3VuYXMgdmFyYWlibGVzIG51ZXZhcyBzaSBsbyBjb25zaWRlcmFuIHJlbGV2YW50ZS4gUG9yIGVqZW1wbG86IHNlIHBvZHLDrWEgZGlzY3JldGl6YXIgbGEgZWRhZCBvIGNvbW8gaGljaWVyb24gYWxndW5hcyBwZXJzb25hcyBkZSBLYWdnbGUgZXh0cmFlciBpbmZvcm1hY2nDs24gZGUgbG9zIG5vbWJyZXMuCgpSZWN1ZXJkZW4gcXVlIHRvZGFzIGVzdGFzIG1vZGlmaWNhY2lvbmVzIGRlYmVuIHJlYWxpemFyc2UgZW4gYW1ib3MgZGF0YXNldHMKCjIpICoqT3BjaW9uYWwqKiBFdmFsdWFyIGxhIGltcG9ydGFuY2lhIGRlIGxhcyB2YXJpYWJsZXMuIFBvciBlamVtcGxvIGNvbiBJbmZvcm1hdGlvbiBWYWx1ZQoKMykgUmVhbGljZW4gYWwgbWVub3MgMyBtb2RlbG9zIGRlIHJlZ3Jlc2nDs24gbG9nw61zdGljYSBjb24gZGlzdGludGFzIHZhcmlhYmxlcy4gUmVjdWVyZGVuIHVzYXIgbGFzIGZ1bmNpb25lcyBgZm9ybXVsYWAgeSBgbWFwYAoKIyMgRGlhZ27Ds3N0aWNvCgpFbCBjcml0ZXJpbyBxdWUgdmFtb3MgYSB1dGlsaXphciBwYXJhIGV2YWx1YXIgbG9zIG1vZGVsb3MgZXMgbGEgZGV2aWFuY2UgZXhwbGljYWRhLgoKMSkgRXZhbHVlbiBsYXMgbcOpdHJpY2FzIGRlIGRpYWduw7NzdGljbyBwYXJhIHN1cyBtb2RlbG9zCgoyKSBFeGFtaW5lbiBsb3MgY29lZmljaWVudGVzIGVzdGltYWRvcyBkZSBzdXMgMiBtZWpvcmVzIG1vZGVsb3MgeSBkZWwgcGVvciBtb2RlbG8KCjMpIFJlYWxpY2VuIGxvcyBzaWd1aWVudGVzIGdyw6FmaWNvcyBwYXJhIGxvcyAzIG1vZGVsb3MgZGVsIHB1bnRvIGFudGVyaW9yOgogIC0gVmlvbGluLXBsb3QKICAtIEN1cnZhIFJPQwogIC0gSG9zbWVyLUxlbWVzaG93CgojIyBFbGVjY2nDs24gZGVsIG1vZGVsbyB5IHB1bnRvIGRlIGNvcnRlCgoxKSBFbGlqYW4gdW4gbW9kZWxvIHkgb2J0ZW5nYW4gc3UgQVVDCjIpIERlZmluYW4gdW4gcHVudG8gZGUgY29ydGUgeSBvYnRlbmdhbiBlbCBhY2N1cmFjeQoKIyMgUHJlZGljY2nDs24gZW4gZWwgZGF0YXNldCBkZSB0ZXN0CgoxKSBBcGxpcXVlbiBlbCBtb2RlbG8gY3JlYWRvIGVuIGVsIGRhdGFzZXQgZGUgdGVzdCB5IG9idGVuZ2FuIHN1IEFVQwoyKSBDbGFzaWZpcXVlbiBhIGxhcyBwZXJzb25hcyBkZSBhY3VlcmRvIGFsIHB1bnRvIGVsZWdpZG8geSBvYnRlbmdhbiBzdSBhY2N1cmFjeSAKCgo=