1. Ejercicios de Correlación
Ejercicio 1.1 Mamíferos, Parte I.
Usando el conjunto de datos de mammals, crear un diagrama de dispersión que muestre cómo el peso del cerebro de un mamífero (BrainWt) varía en función de su peso corporal (BodyWt).
Ejercicio 1.2 Medidas del cuerpo, Parte I.
Utilizando el conjunto de datos bdims, realizar un diagrama de dispersión que muestre cómo el peso de una persona {wgt) varía en función de su altura {hgt). Jdentifque el género de las observaciones en el scatterplot, para ello pinte de rojo a las mujeres y de azul a los hombres, use la instrucción col de R. Observar que en esta base de datos, sex= 1 para los hombres y sex= O para las mujeres.
Ejercicio 1.3
Utilizando el conjunto de datos smoking, realizar un diagrama de dispersión que ilustre cómo varía la cantidad de cigarrillos que fuma por día una persona durante el fn de semana (amtWeekends), en función de su edad (age).
Ejercicio 1.4
Utilizando el conjunto de datos cars, realizar un scatter plot del rendimiento del auto en la ciudad (mpgCity) en función del peso del auto (weight).
Ejercicio 1.5
Para cada uno de los cuatro scatterplots anteriores describa la forma, la dirección y la fuerza de la relación entre las dos variables involucradas. Respuestas posibles:
- forma:
- lineal
- no lineal (cuadrática, exponencial, etc.)
- dirección:
- fuerza de la relación:
- fuerte
- moderada
- débil
- no asociación.
RTA:
- Gráfico 1:
- froma: no lineal
- dirección: positiva
- fuerza: moderada
- Gráfico 2:
- froma: lineal
- dirección: positiva
- fuerza: fuerte
- Gráfico 3:
- froma:
- dirección:
- fuerza: no asociación
- Gráfico 4:
- froma: no lineal
- dirección: negativa
- fuerza: fuerte
Ejercicio 1.6
¿Para cuáles de los 4 conjuntos de datos tiene sentido resumir la relación entre ambas variables con el coefciente de correlación muestral de Pearson? Para los casos en los cuales contestó que era apropiado
- calcúlelo usando R.
- Testee las siguientes hipótesis
H0 : ρ =0
H1 : ρ \(\neq\) 0
para cada uno de esos conjuntos. Antes de hacerlo defina a ρ en palabras. Observe que en el ítem 1.6 a) calculó un estimador de esta cantidad, para cada conjunto. ¿En qué casos rechaza la hipótesis nula, a nivel 0.05?
RTA: Para el casao 2 y 4
a)
r
r cor(bdims\(wgt, bdims\)hgt)
[1] 0.7173011
r
r cor(cars\(weight, cars\)mpgCity)
[1] -0.8769183
b)
Nivel de asociación lineal entre el peso de una persona (wgt) y su altura (hgt).
Nivel de asociación lineal entre el rendimiento del auto en la ciudad (mpgCity) y el peso del auto (weight).
r
r cor.test(bdims\(wgt, bdims\)hgt)
Pearson's product-moment correlation
data: bdims$wgt and bdims$hgt
t = 23.135, df = 505, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6722075 0.7570923
sample estimates:
cor
0.7173011
r
r cor.test(cars\(weight, cars\)mpgCity)
Pearson's product-moment correlation
data: cars$weight and cars$mpgCity
t = -13.157, df = 52, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9270125 -0.7960809
sample estimates:
cor
-0.8769183
Ejercicio 1.7
- Calcule el coefciente de correlación muestral de Pearson para los 62 mamíferos.
r
r cor(mammals\(BrainWt, mammals\)BodyWt)
[1] 0.9341638
- Identifque las dos observaciones que tienen valores de peso corporal y cerebral más grandes que el resto. Realice un scatter plot de las restantes 60 variables. ¿Cómo podría describir este gráfco? Calcule el coefciente de correlación muestral de Pearson para estas 60 observaciones.
mammals %>%
top_n(2, wt = BodyWt)
Species BodyWt BrainWt NonDreaming Dreaming TotalSleep LifeSpan Gestation Predation Exposure Danger
1 Africanelephant 6654 5712 NA NA 3.3 38.6 645 3 5 3
2 Asianelephant 2547 4603 2.1 1.8 3.9 69.0 624 3 5 4
mammals %>%
top_n(nrow(.)-2, wt = -BodyWt) %>%
ggplot(.,aes(BrainWt, BodyWt))+
geom_point()
#Sigue teniendo un outlier y relación no lineal
mammals %>%
top_n(nrow(.)-2, wt = -BodyWt) %>%
summarise(
corr = cor(BrainWt, BodyWt)
)
corr
1 0.6505592
- Realice un scatterplot con todas las observaciones, del logaritmo (en base 10, o en base e) del peso del cerebro en función del logaritmo del peso corporal. Observe el gráfco. ¿Cómo lo describiría? Calcule la correlación de Pearson para los datos transformados.
ggplot(mammals, aes(BrainWt,BodyWt))+
geom_point()+
scale_x_log10()+
scale_y_log10()
cor(log(mammals$BrainWt), log(mammals$BodyWt))
[1] 0.9595748
- Para ambos conjuntos de datos (transformados por el logaritmo y sin transformar) calcule la correlación de Spearman.
cor(mammals$BrainWt, mammals$BodyWt, method = "spearman")
[1] 0.9534986
cor(log(mammals$BrainWt), log(mammals$BodyWt), method = "spearman")
[1] 0.9534986
Ejercicio 1.8
¿Con qué coefciente de correlación, Pearson o Spearman, resumiría los datos de cars?(weight, mpgCity): Pearson
LS0tCnRpdGxlOiAiRWplcmNpY2lvcyBtb2RlbG8gbGluZWFsLiBJIgpvdXRwdXQ6CiAgaHRtbF9ub3RlYm9vazoKICAgIHRvYzogeWVzCiAgICB0b2NfZmxvYXQ6IHllcwotLS0KCiMxLiBFamVyY2ljaW9zIGRlIENvcnJlbGFjacOzbgoKIyMjIEVqZXJjaWNpbyAxLjEgTWFtw61mZXJvcywgUGFydGUgSS4KVXNhbmRvIGVsIGNvbmp1bnRvIGRlIGRhdG9zIGRlIG1hbW1hbHMsIGNyZWFyIHVuIGRpYWdyYW1hIGRlIGRpc3BlcnNpw7NuIHF1ZSBtdWVzdHJlIGPDs21vIGVsIHBlc28gZGVsIGNlcmVicm8gZGUgdW4gbWFtw61mZXJvIChCcmFpbld0KSB2YXLDrWEgZW4gZnVuY2nDs24gZGUgc3UgcGVzbyBjb3Jwb3JhbCAoQm9keVd0KS4KYGBge3IsIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0UsIGluY2x1ZGU9RkFMU0V9CmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KG9wZW5pbnRybyx3YXJuLmNvbmZsaWN0cyA9IEZBTFNFKQoKYGBgCgpgYGB7cn0KZ2dwbG90KG1hbW1hbHMsIGFlcyhCcmFpbld0LCBCb2R5V3QpKSsKICBnZW9tX3BvaW50KCkKYGBgCgpgYGB7cn0KCmdncGxvdChtYW1tYWxzLCBhZXMoQnJhaW5XdCwgQm9keVd0KSkrCiAgZ2VvbV9wb2ludCgpKwogIGxpbXMoeD1jKDAsMTAwMCksIHkgPSBjKDAsMTAwMCkpCmBgYAoKCiMjIyBFamVyY2ljaW8gMS4yIE1lZGlkYXMgZGVsIGN1ZXJwbywgUGFydGUgSS4gClV0aWxpemFuZG8gZWwgY29uanVudG8gZGUgZGF0b3MgYmRpbXMsIHJlYWxpemFyIHVuIGRpYWdyYW1hIGRlIGRpc3BlcnNpw7NuIHF1ZSBtdWVzdHJlIGPDs21vIGVsIHBlc28gZGUgdW5hIHBlcnNvbmEge3dndCkgdmFyw61hIGVuIGZ1bmNpw7NuIGRlIHN1IGFsdHVyYSB7aGd0KS4gSmRlbnRpZnF1ZSBlbCBnw6luZXJvIGRlIGxhcyBvYnNlcnZhY2lvbmVzIGVuIGVsIHNjYXR0ZXJwbG90LCBwYXJhIGVsbG8gcGludGUgZGUgcm9qbyBhIGxhcyBtdWplcmVzIHkgZGUgYXp1bCBhIGxvcyBob21icmVzLCB1c2UgbGEgaW5zdHJ1Y2Npw7NuIGNvbCBkZSBSLiBPYnNlcnZhciBxdWUgZW4gZXN0YSBiYXNlIGRlIGRhdG9zLCBzZXg9IDEgcGFyYSBsb3MgaG9tYnJlcyB5IHNleD0gTyBwYXJhIGxhcyBtdWplcmVzLgoKYGBge3J9CmdncGxvdChiZGltcywgYWVzKHdndCwgaGd0LCBjb2xvcj0gZmFjdG9yKHNleCkpKSsKICBnZW9tX3BvaW50KCkrCiAgc2NhbGVfY29sb3JfbWFudWFsKCJnZW5lcm8iLHZhbHVlcyA9IGMoImJsdWUiLCJyZWQiKSxsYWJlbHM9YygiTXVqZXJlcyIsIkhvbWJyZXMiKSkKCgpgYGAKCgoKIyMjIEVqZXJjaWNpbyAxLjMgClV0aWxpemFuZG8gZWwgY29uanVudG8gZGUgZGF0b3Mgc21va2luZywgcmVhbGl6YXIgdW4gZGlhZ3JhbWEgZGUgZGlzcGVyc2nDs24gcXVlIGlsdXN0cmUgY8OzbW8gdmFyw61hIGxhIGNhbnRpZGFkIGRlIGNpZ2FycmlsbG9zIHF1ZSBmdW1hIHBvciBkw61hIHVuYSBwZXJzb25hIGR1cmFudGUgZWwgZm4gZGUgc2VtYW5hIChhbXRXZWVrZW5kcyksIGVuIGZ1bmNpw7NuIGRlIHN1IGVkYWQgKGFnZSkuCgpgYGB7cn0KZ2dwbG90KHNtb2tpbmcsIGFlcyhhZ2UsYW10V2Vla2VuZHMpKSsKICBnZW9tX3BvaW50KCkKCmBgYAoKCiMjIyBFamVyY2ljaW8gMS40ClV0aWxpemFuZG8gZWwgY29uanVudG8gZGUgZGF0b3MgY2FycywgcmVhbGl6YXIgdW4gc2NhdHRlciBwbG90IGRlbCByZW5kaW1pZW50byBkZWwgYXV0byBlbiBsYSBjaXVkYWQgKG1wZ0NpdHkpIGVuIGZ1bmNpw7NuIGRlbCBwZXNvIGRlbCBhdXRvICh3ZWlnaHQpLgoKYGBge3J9CmdncGxvdChjYXJzLGFlcyh3ZWlnaHQsIG1wZ0NpdHkpKSsKICBnZW9tX3BvaW50KCkKYGBgCgoKIyMjIEVqZXJjaWNpbyAxLjUgClBhcmEgY2FkYSB1bm8gZGUgbG9zIGN1YXRybyBzY2F0dGVycGxvdHMgYW50ZXJpb3JlcyBkZXNjcmliYSBsYSBmb3JtYSwgbGEgZGlyZWNjacOzbiB5IGxhIGZ1ZXJ6YSBkZSBsYSByZWxhY2nDs24gZW50cmUgbGFzIGRvcyB2YXJpYWJsZXMgaW52b2x1Y3JhZGFzLiBSZXNwdWVzdGFzIHBvc2libGVzOgoKKiBfZm9ybWFfOgogICAgKyBsaW5lYWwKICAgICsgbm8gbGluZWFsIChjdWFkcsOhdGljYSwgZXhwb25lbmNpYWwsIGV0Yy4pCgoqIF9kaXJlY2Npw7NuXzogCiAgICAqIHBvc2l0aXZhCiAgICAqIG5lZ2F0aXZhCgoqIF9mdWVyemEgZGUgbGEgcmVsYWNpw7NuXzogCiAgICAqIGZ1ZXJ0ZQogICAgKiBtb2RlcmFkYQogICAgKiBkw6liaWwKICAgICogbm8gYXNvY2lhY2nDs24uCgpfX1JUQV9fOiAgICAKCiogR3LDoWZpY28gMToKICAgICogZnJvbWE6IG5vIGxpbmVhbAogICAgKiBkaXJlY2Npw7NuOiBwb3NpdGl2YQogICAgKiBmdWVyemE6IG1vZGVyYWRhCiogR3LDoWZpY28gMjoKICAgICogZnJvbWE6IGxpbmVhbAogICAgKiBkaXJlY2Npw7NuOiBwb3NpdGl2YQogICAgKiBmdWVyemE6IGZ1ZXJ0ZQoqIEdyw6FmaWNvIDM6CiAgICAqIGZyb21hOiAgCiAgICAqIGRpcmVjY2nDs246CiAgICAqIGZ1ZXJ6YTogbm8gYXNvY2lhY2nDs24KKiBHcsOhZmljbyA0OgogICAgKiBmcm9tYTogbm8gbGluZWFsIAogICAgKiBkaXJlY2Npw7NuOiBuZWdhdGl2YQogICAgKiBmdWVyemE6IGZ1ZXJ0ZQogICAKICAgCiMjIyBFamVyY2ljaW8gMS42IArCv1BhcmEgY3XDoWxlcyBkZSBsb3MgNCBjb25qdW50b3MgZGUgZGF0b3MgdGllbmUgc2VudGlkbyByZXN1bWlyIGxhIHJlbGFjacOzbiBlbnRyZSBhbWJhcyB2YXJpYWJsZXMgY29uIGVsIGNvZWZjaWVudGUgZGUgY29ycmVsYWNpw7NuIG11ZXN0cmFsIGRlIFBlYXJzb24/IFBhcmEgbG9zIGNhc29zIGVuIGxvcyBjdWFsZXMgY29udGVzdMOzIHF1ZSBlcmEgYXByb3BpYWRvICAgICAgICAKCmEpIGNhbGPDumxlbG8gdXNhbmRvIFIuICAgICAgICAKYikgVGVzdGVlIGxhcyBzaWd1aWVudGVzIGhpcMOzdGVzaXMgICAgIApIMCA6IM+BID0wICAgICAgICAKSDEgOiDPgSAkXG5lcSQgMCAgICAgICAgIAoKcGFyYSBjYWRhIHVubyBkZSBlc29zIGNvbmp1bnRvcy4gQW50ZXMgZGUgaGFjZXJsbyBkZWZpbmEgYSDPgSBlbiBwYWxhYnJhcy4gT2JzZXJ2ZSBxdWUgZW4gZWwgw610ZW0gMS42IGEpIGNhbGN1bMOzIHVuIGVzdGltYWRvciBkZSBlc3RhIGNhbnRpZGFkLCBwYXJhIGNhZGEgY29uanVudG8uIMK/RW4gcXXDqSBjYXNvcyByZWNoYXphIGxhIGhpcMOzdGVzaXMgbnVsYSwgYSBuaXZlbCAwLjA1PwogICAKICAgCl9fUlRBX186IFBhcmEgZWwgY2FzYW8gMiB5IDQgICAgCgpfX2EpX18gCmBgYHtyfQpjb3IoYmRpbXMkd2d0LCBiZGltcyRoZ3QpCmNvcihjYXJzJHdlaWdodCwgY2FycyRtcGdDaXR5KQpgYGAKCl9fYilfXyAgICAgICAgCk5pdmVsIGRlIGFzb2NpYWNpw7NuIGxpbmVhbCBlbnRyZSBlbCBwZXNvIGRlIHVuYSBwZXJzb25hICh3Z3QpIHkgc3UgYWx0dXJhIChoZ3QpLiAgICAgIApOaXZlbCBkZSBhc29jaWFjacOzbiBsaW5lYWwgZW50cmUgZWwgcmVuZGltaWVudG8gZGVsIGF1dG8gZW4gbGEgY2l1ZGFkIChtcGdDaXR5KSB5IGVsIHBlc28gZGVsIGF1dG8gKHdlaWdodCkuCgpgYGB7cn0KY29yLnRlc3QoYmRpbXMkd2d0LCBiZGltcyRoZ3QpCmNvci50ZXN0KGNhcnMkd2VpZ2h0LCBjYXJzJG1wZ0NpdHkpCmBgYAoKIyMjIEVqZXJjaWNpbyAxLjcgCgogYSkgQ2FsY3VsZSBlbCBjb2VmY2llbnRlIGRlIGNvcnJlbGFjacOzbiBtdWVzdHJhbCBkZSBQZWFyc29uIHBhcmEgbG9zIDYyIG1hbcOtZmVyb3MuCgpgYGB7cn0KY29yKG1hbW1hbHMkQnJhaW5XdCwgbWFtbWFscyRCb2R5V3QpCmBgYAoKCiBiKSBJZGVudGlmcXVlIGxhcyBkb3Mgb2JzZXJ2YWNpb25lcyBxdWUgdGllbmVuIHZhbG9yZXMgZGUgcGVzbyBjb3Jwb3JhbCB5IGNlcmVicmFsIG3DoXMgZ3JhbmRlcyBxdWUgZWwgcmVzdG8uIFJlYWxpY2UgdW4gc2NhdHRlciBwbG90IGRlIGxhcyByZXN0YW50ZXMgNjAgdmFyaWFibGVzLiDCv0PDs21vIHBvZHLDrWEgZGVzY3JpYmlyIGVzdGUgZ3LDoWZjbz8gQ2FsY3VsZSBlbCBjb2VmY2llbnRlIGRlIGNvcnJlbGFjacOzbiBtdWVzdHJhbCBkZSBQZWFyc29uIHBhcmEgZXN0YXMgNjAgb2JzZXJ2YWNpb25lcy4KCmBgYHtyfQptYW1tYWxzICU+JSAKICB0b3BfbigyLCB3dCA9IEJvZHlXdCkKCgptYW1tYWxzICU+JSAKICB0b3Bfbihucm93KC4pLTIsIHd0ID0gLUJvZHlXdCkgJT4lIApnZ3Bsb3QoLixhZXMoQnJhaW5XdCwgQm9keVd0KSkrCiAgZ2VvbV9wb2ludCgpCiNTaWd1ZSB0ZW5pZW5kbyB1biBvdXRsaWVyIHkgcmVsYWNpw7NuIG5vIGxpbmVhbAoKbWFtbWFscyAlPiUgCiAgdG9wX24obnJvdyguKS0yLCB3dCA9IC1Cb2R5V3QpICU+JQogIHN1bW1hcmlzZSgKICAgIGNvcnIgPSBjb3IoQnJhaW5XdCwgQm9keVd0KQogICkKCmBgYAoKCmMpIFJlYWxpY2UgdW4gc2NhdHRlcnBsb3QgY29uIHRvZGFzIGxhcyBvYnNlcnZhY2lvbmVzLCBkZWwgbG9nYXJpdG1vIChlbiBiYXNlIDEwLCBvIGVuIGJhc2UgZSkgZGVsIHBlc28gZGVsIGNlcmVicm8gZW4gZnVuY2nDs24gZGVsIGxvZ2FyaXRtbyBkZWwgcGVzbyBjb3Jwb3JhbC4gT2JzZXJ2ZSBlbCBncsOhZmNvLiDCv0PDs21vIGxvIGRlc2NyaWJpcsOtYT8gQ2FsY3VsZSBsYSBjb3JyZWxhY2nDs24gZGUgUGVhcnNvbiBwYXJhIGxvcyBkYXRvcyB0cmFuc2Zvcm1hZG9zLgogIAogIApgYGB7cn0KZ2dwbG90KG1hbW1hbHMsIGFlcyhCcmFpbld0LEJvZHlXdCkpKwogIGdlb21fcG9pbnQoKSsKICBzY2FsZV94X2xvZzEwKCkrCiAgc2NhbGVfeV9sb2cxMCgpCgpjb3IobG9nKG1hbW1hbHMkQnJhaW5XdCksIGxvZyhtYW1tYWxzJEJvZHlXdCkpCmBgYAogIAogICAKZCkgUGFyYSBhbWJvcyBjb25qdW50b3MgZGUgZGF0b3MgKHRyYW5zZm9ybWFkb3MgcG9yIGVsIGxvZ2FyaXRtbyB5IHNpbiB0cmFuc2Zvcm1hcikgY2FsY3VsZSBsYSBjb3JyZWxhY2nDs24gZGUgU3BlYXJtYW4uCgpgYGB7cn0KY29yKG1hbW1hbHMkQnJhaW5XdCwgbWFtbWFscyRCb2R5V3QsIG1ldGhvZCA9ICJzcGVhcm1hbiIpCmNvcihsb2cobWFtbWFscyRCcmFpbld0KSwgbG9nKG1hbW1hbHMkQm9keVd0KSwgbWV0aG9kID0gInNwZWFybWFuIikKYGBgCgojIyMgRWplcmNpY2lvIDEuOCAKwr9Db24gcXXDqSBjb2VmY2llbnRlIGRlIGNvcnJlbGFjacOzbiwgUGVhcnNvbiBvIFNwZWFybWFuLCByZXN1bWlyw61hIGxvcyBkYXRvcyBkZSBjYXJzPyh3ZWlnaHQsIG1wZ0NpdHkpOgpfX1BlYXJzb25fXwo=