1. Ejercicios de Correlación

Ejercicio 1.1 Mamíferos, Parte I.

Usando el conjunto de datos de mammals, crear un diagrama de dispersión que muestre cómo el peso del cerebro de un mamífero (BrainWt) varía en función de su peso corporal (BodyWt).

Ejercicio 1.2 Medidas del cuerpo, Parte I.

Utilizando el conjunto de datos bdims, realizar un diagrama de dispersión que muestre cómo el peso de una persona {wgt) varía en función de su altura {hgt). Jdentifque el género de las observaciones en el scatterplot, para ello pinte de rojo a las mujeres y de azul a los hombres, use la instrucción col de R. Observar que en esta base de datos, sex= 1 para los hombres y sex= O para las mujeres.

Ejercicio 1.3

Utilizando el conjunto de datos smoking, realizar un diagrama de dispersión que ilustre cómo varía la cantidad de cigarrillos que fuma por día una persona durante el fn de semana (amtWeekends), en función de su edad (age).

Ejercicio 1.4

Utilizando el conjunto de datos cars, realizar un scatter plot del rendimiento del auto en la ciudad (mpgCity) en función del peso del auto (weight).

Ejercicio 1.5

Para cada uno de los cuatro scatterplots anteriores describa la forma, la dirección y la fuerza de la relación entre las dos variables involucradas. Respuestas posibles:

forma:
- lineal
- no lineal (cuadrática, exponencial, etc.)
dirección:
- positiva
- negativa
fuerza de la relación:
- fuerte
- moderada
- débil
- no asociación.

RTA:

Gráfico 1:
- froma: no lineal
- dirección: positiva
- fuerza: moderada
Gráfico 2:
- froma: lineal
- dirección: positiva
- fuerza: fuerte
Gráfico 3:
- froma:
- dirección:
- fuerza: no asociación
Gráfico 4:
- froma: no lineal
- dirección: negativa
- fuerza: fuerte

Ejercicio 1.6

¿Para cuáles de los 4 conjuntos de datos tiene sentido resumir la relación entre ambas variables con el coefciente de correlación muestral de Pearson? Para los casos en los cuales contestó que era apropiado

calcúlelo usando R.
Testee las siguientes hipótesis
H0 : ρ =0
H1 : ρ \(\neq\) 0

para cada uno de esos conjuntos. Antes de hacerlo defina a ρ en palabras. Observe que en el ítem 1.6 a) calculó un estimador de esta cantidad, para cada conjunto. ¿En qué casos rechaza la hipótesis nula, a nivel 0.05?

RTA: Para el casao 2 y 4

rr cor(bdims\(wgt, bdims\)hgt)

[1] 0.7173011

rr cor(cars\(weight, cars\)mpgCity)

[1] -0.8769183

b)
Nivel de asociación lineal entre el peso de una persona (wgt) y su altura (hgt).
Nivel de asociación lineal entre el rendimiento del auto en la ciudad (mpgCity) y el peso del auto (weight).

rr cor.test(bdims\(wgt, bdims\)hgt)


    Pearson's product-moment correlation

data:  bdims$wgt and bdims$hgt
t = 23.135, df = 505, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.6722075 0.7570923
sample estimates:
      cor 
0.7173011

rr cor.test(cars\(weight, cars\)mpgCity)


    Pearson's product-moment correlation

data:  cars$weight and cars$mpgCity
t = -13.157, df = 52, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9270125 -0.7960809
sample estimates:
       cor 
-0.8769183

Ejercicio 1.7

Calcule el coefciente de correlación muestral de Pearson para los 62 mamíferos.

rr cor(mammals\(BrainWt, mammals\)BodyWt)

[1] 0.9341638

Identifque las dos observaciones que tienen valores de peso corporal y cerebral más grandes que el resto. Realice un scatter plot de las restantes 60 variables. ¿Cómo podría describir este gráfco? Calcule el coefciente de correlación muestral de Pearson para estas 60 observaciones.

mammals %>% 
  top_n(2, wt = BodyWt)

          Species BodyWt BrainWt NonDreaming Dreaming TotalSleep LifeSpan Gestation Predation Exposure Danger
1 Africanelephant   6654    5712          NA       NA        3.3     38.6       645         3        5      3
2   Asianelephant   2547    4603         2.1      1.8        3.9     69.0       624         3        5      4

mammals %>% 
  top_n(nrow(.)-2, wt = -BodyWt) %>% 
ggplot(.,aes(BrainWt, BodyWt))+
  geom_point()

#Sigue teniendo un outlier y relación no lineal
mammals %>% 
  top_n(nrow(.)-2, wt = -BodyWt) %>%
  summarise(
    corr = cor(BrainWt, BodyWt)
  )

       corr
1 0.6505592

Realice un scatterplot con todas las observaciones, del logaritmo (en base 10, o en base e) del peso del cerebro en función del logaritmo del peso corporal. Observe el gráfco. ¿Cómo lo describiría? Calcule la correlación de Pearson para los datos transformados.

ggplot(mammals, aes(BrainWt,BodyWt))+
  geom_point()+
  scale_x_log10()+
  scale_y_log10()

cor(log(mammals$BrainWt), log(mammals$BodyWt))

[1] 0.9595748

Para ambos conjuntos de datos (transformados por el logaritmo y sin transformar) calcule la correlación de Spearman.

cor(mammals$BrainWt, mammals$BodyWt, method = "spearman")

[1] 0.9534986

cor(log(mammals$BrainWt), log(mammals$BodyWt), method = "spearman")

[1] 0.9534986

Ejercicio 1.8

¿Con qué coefciente de correlación, Pearson o Spearman, resumiría los datos de cars?(weight, mpgCity): Pearson

LS0tCnRpdGxlOiAiRWplcmNpY2lvcyBtb2RlbG8gbGluZWFsLiBJIgpvdXRwdXQ6CiAgaHRtbF9ub3RlYm9vazoKICAgIHRvYzogeWVzCiAgICB0b2NfZmxvYXQ6IHllcwotLS0KCiMxLiBFamVyY2ljaW9zIGRlIENvcnJlbGFjacOzbgoKIyMjIEVqZXJjaWNpbyAxLjEgTWFtw61mZXJvcywgUGFydGUgSS4KVXNhbmRvIGVsIGNvbmp1bnRvIGRlIGRhdG9zIGRlIG1hbW1hbHMsIGNyZWFyIHVuIGRpYWdyYW1hIGRlIGRpc3BlcnNpw7NuIHF1ZSBtdWVzdHJlIGPDs21vIGVsIHBlc28gZGVsIGNlcmVicm8gZGUgdW4gbWFtw61mZXJvIChCcmFpbld0KSB2YXLDrWEgZW4gZnVuY2nDs24gZGUgc3UgcGVzbyBjb3Jwb3JhbCAoQm9keVd0KS4KYGBge3IsIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0UsIGluY2x1ZGU9RkFMU0V9CmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KG9wZW5pbnRybyx3YXJuLmNvbmZsaWN0cyA9IEZBTFNFKQoKYGBgCgpgYGB7cn0KZ2dwbG90KG1hbW1hbHMsIGFlcyhCcmFpbld0LCBCb2R5V3QpKSsKICBnZW9tX3BvaW50KCkKYGBgCgpgYGB7cn0KCmdncGxvdChtYW1tYWxzLCBhZXMoQnJhaW5XdCwgQm9keVd0KSkrCiAgZ2VvbV9wb2ludCgpKwogIGxpbXMoeD1jKDAsMTAwMCksIHkgPSBjKDAsMTAwMCkpCmBgYAoKCiMjIyBFamVyY2ljaW8gMS4yIE1lZGlkYXMgZGVsIGN1ZXJwbywgUGFydGUgSS4gClV0aWxpemFuZG8gZWwgY29uanVudG8gZGUgZGF0b3MgYmRpbXMsIHJlYWxpemFyIHVuIGRpYWdyYW1hIGRlIGRpc3BlcnNpw7NuIHF1ZSBtdWVzdHJlIGPDs21vIGVsIHBlc28gZGUgdW5hIHBlcnNvbmEge3dndCkgdmFyw61hIGVuIGZ1bmNpw7NuIGRlIHN1IGFsdHVyYSB7aGd0KS4gSmRlbnRpZnF1ZSBlbCBnw6luZXJvIGRlIGxhcyBvYnNlcnZhY2lvbmVzIGVuIGVsIHNjYXR0ZXJwbG90LCBwYXJhIGVsbG8gcGludGUgZGUgcm9qbyBhIGxhcyBtdWplcmVzIHkgZGUgYXp1bCBhIGxvcyBob21icmVzLCB1c2UgbGEgaW5zdHJ1Y2Npw7NuIGNvbCBkZSBSLiBPYnNlcnZhciBxdWUgZW4gZXN0YSBiYXNlIGRlIGRhdG9zLCBzZXg9IDEgcGFyYSBsb3MgaG9tYnJlcyB5IHNleD0gTyBwYXJhIGxhcyBtdWplcmVzLgoKYGBge3J9CmdncGxvdChiZGltcywgYWVzKHdndCwgaGd0LCBjb2xvcj0gZmFjdG9yKHNleCkpKSsKICBnZW9tX3BvaW50KCkrCiAgc2NhbGVfY29sb3JfbWFudWFsKCJnZW5lcm8iLHZhbHVlcyA9IGMoImJsdWUiLCJyZWQiKSxsYWJlbHM9YygiTXVqZXJlcyIsIkhvbWJyZXMiKSkKCgpgYGAKCgoKIyMjIEVqZXJjaWNpbyAxLjMgClV0aWxpemFuZG8gZWwgY29uanVudG8gZGUgZGF0b3Mgc21va2luZywgcmVhbGl6YXIgdW4gZGlhZ3JhbWEgZGUgZGlzcGVyc2nDs24gcXVlIGlsdXN0cmUgY8OzbW8gdmFyw61hIGxhIGNhbnRpZGFkIGRlIGNpZ2FycmlsbG9zIHF1ZSBmdW1hIHBvciBkw61hIHVuYSBwZXJzb25hIGR1cmFudGUgZWwgZm4gZGUgc2VtYW5hIChhbXRXZWVrZW5kcyksIGVuIGZ1bmNpw7NuIGRlIHN1IGVkYWQgKGFnZSkuCgpgYGB7cn0KZ2dwbG90KHNtb2tpbmcsIGFlcyhhZ2UsYW10V2Vla2VuZHMpKSsKICBnZW9tX3BvaW50KCkKCmBgYAoKCiMjIyBFamVyY2ljaW8gMS40ClV0aWxpemFuZG8gZWwgY29uanVudG8gZGUgZGF0b3MgY2FycywgcmVhbGl6YXIgdW4gc2NhdHRlciBwbG90IGRlbCByZW5kaW1pZW50byBkZWwgYXV0byBlbiBsYSBjaXVkYWQgKG1wZ0NpdHkpIGVuIGZ1bmNpw7NuIGRlbCBwZXNvIGRlbCBhdXRvICh3ZWlnaHQpLgoKYGBge3J9CmdncGxvdChjYXJzLGFlcyh3ZWlnaHQsIG1wZ0NpdHkpKSsKICBnZW9tX3BvaW50KCkKYGBgCgoKIyMjIEVqZXJjaWNpbyAxLjUgClBhcmEgY2FkYSB1bm8gZGUgbG9zIGN1YXRybyBzY2F0dGVycGxvdHMgYW50ZXJpb3JlcyBkZXNjcmliYSBsYSBmb3JtYSwgbGEgZGlyZWNjacOzbiB5IGxhIGZ1ZXJ6YSBkZSBsYSByZWxhY2nDs24gZW50cmUgbGFzIGRvcyB2YXJpYWJsZXMgaW52b2x1Y3JhZGFzLiBSZXNwdWVzdGFzIHBvc2libGVzOgoKKiBfZm9ybWFfOgogICAgKyBsaW5lYWwKICAgICsgbm8gbGluZWFsIChjdWFkcsOhdGljYSwgZXhwb25lbmNpYWwsIGV0Yy4pCgoqIF9kaXJlY2Npw7NuXzogCiAgICAqIHBvc2l0aXZhCiAgICAqIG5lZ2F0aXZhCgoqIF9mdWVyemEgZGUgbGEgcmVsYWNpw7NuXzogCiAgICAqIGZ1ZXJ0ZQogICAgKiBtb2RlcmFkYQogICAgKiBkw6liaWwKICAgICogbm8gYXNvY2lhY2nDs24uCgpfX1JUQV9fOiAgICAKCiogR3LDoWZpY28gMToKICAgICogZnJvbWE6IG5vIGxpbmVhbAogICAgKiBkaXJlY2Npw7NuOiBwb3NpdGl2YQogICAgKiBmdWVyemE6IG1vZGVyYWRhCiogR3LDoWZpY28gMjoKICAgICogZnJvbWE6IGxpbmVhbAogICAgKiBkaXJlY2Npw7NuOiBwb3NpdGl2YQogICAgKiBmdWVyemE6IGZ1ZXJ0ZQoqIEdyw6FmaWNvIDM6CiAgICAqIGZyb21hOiAgCiAgICAqIGRpcmVjY2nDs246CiAgICAqIGZ1ZXJ6YTogbm8gYXNvY2lhY2nDs24KKiBHcsOhZmljbyA0OgogICAgKiBmcm9tYTogbm8gbGluZWFsIAogICAgKiBkaXJlY2Npw7NuOiBuZWdhdGl2YQogICAgKiBmdWVyemE6IGZ1ZXJ0ZQogICAKICAgCiMjIyBFamVyY2ljaW8gMS42IArCv1BhcmEgY3XDoWxlcyBkZSBsb3MgNCBjb25qdW50b3MgZGUgZGF0b3MgdGllbmUgc2VudGlkbyByZXN1bWlyIGxhIHJlbGFjacOzbiBlbnRyZSBhbWJhcyB2YXJpYWJsZXMgY29uIGVsIGNvZWZjaWVudGUgZGUgY29ycmVsYWNpw7NuIG11ZXN0cmFsIGRlIFBlYXJzb24/IFBhcmEgbG9zIGNhc29zIGVuIGxvcyBjdWFsZXMgY29udGVzdMOzIHF1ZSBlcmEgYXByb3BpYWRvICAgICAgICAKCmEpIGNhbGPDumxlbG8gdXNhbmRvIFIuICAgICAgICAKYikgVGVzdGVlIGxhcyBzaWd1aWVudGVzIGhpcMOzdGVzaXMgICAgIApIMCA6IM+BID0wICAgICAgICAKSDEgOiDPgSAkXG5lcSQgMCAgICAgICAgIAoKcGFyYSBjYWRhIHVubyBkZSBlc29zIGNvbmp1bnRvcy4gQW50ZXMgZGUgaGFjZXJsbyBkZWZpbmEgYSDPgSBlbiBwYWxhYnJhcy4gT2JzZXJ2ZSBxdWUgZW4gZWwgw610ZW0gMS42IGEpIGNhbGN1bMOzIHVuIGVzdGltYWRvciBkZSBlc3RhIGNhbnRpZGFkLCBwYXJhIGNhZGEgY29uanVudG8uIMK/RW4gcXXDqSBjYXNvcyByZWNoYXphIGxhIGhpcMOzdGVzaXMgbnVsYSwgYSBuaXZlbCAwLjA1PwogICAKICAgCl9fUlRBX186IFBhcmEgZWwgY2FzYW8gMiB5IDQgICAgCgpfX2EpX18gCmBgYHtyfQpjb3IoYmRpbXMkd2d0LCBiZGltcyRoZ3QpCmNvcihjYXJzJHdlaWdodCwgY2FycyRtcGdDaXR5KQpgYGAKCl9fYilfXyAgICAgICAgCk5pdmVsIGRlIGFzb2NpYWNpw7NuIGxpbmVhbCBlbnRyZSBlbCBwZXNvIGRlIHVuYSBwZXJzb25hICh3Z3QpIHkgc3UgYWx0dXJhIChoZ3QpLiAgICAgIApOaXZlbCBkZSBhc29jaWFjacOzbiBsaW5lYWwgZW50cmUgZWwgcmVuZGltaWVudG8gZGVsIGF1dG8gZW4gbGEgY2l1ZGFkIChtcGdDaXR5KSB5IGVsIHBlc28gZGVsIGF1dG8gKHdlaWdodCkuCgpgYGB7cn0KY29yLnRlc3QoYmRpbXMkd2d0LCBiZGltcyRoZ3QpCmNvci50ZXN0KGNhcnMkd2VpZ2h0LCBjYXJzJG1wZ0NpdHkpCmBgYAoKIyMjIEVqZXJjaWNpbyAxLjcgCgogYSkgQ2FsY3VsZSBlbCBjb2VmY2llbnRlIGRlIGNvcnJlbGFjacOzbiBtdWVzdHJhbCBkZSBQZWFyc29uIHBhcmEgbG9zIDYyIG1hbcOtZmVyb3MuCgpgYGB7cn0KY29yKG1hbW1hbHMkQnJhaW5XdCwgbWFtbWFscyRCb2R5V3QpCmBgYAoKCiBiKSBJZGVudGlmcXVlIGxhcyBkb3Mgb2JzZXJ2YWNpb25lcyBxdWUgdGllbmVuIHZhbG9yZXMgZGUgcGVzbyBjb3Jwb3JhbCB5IGNlcmVicmFsIG3DoXMgZ3JhbmRlcyBxdWUgZWwgcmVzdG8uIFJlYWxpY2UgdW4gc2NhdHRlciBwbG90IGRlIGxhcyByZXN0YW50ZXMgNjAgdmFyaWFibGVzLiDCv0PDs21vIHBvZHLDrWEgZGVzY3JpYmlyIGVzdGUgZ3LDoWZjbz8gQ2FsY3VsZSBlbCBjb2VmY2llbnRlIGRlIGNvcnJlbGFjacOzbiBtdWVzdHJhbCBkZSBQZWFyc29uIHBhcmEgZXN0YXMgNjAgb2JzZXJ2YWNpb25lcy4KCmBgYHtyfQptYW1tYWxzICU+JSAKICB0b3BfbigyLCB3dCA9IEJvZHlXdCkKCgptYW1tYWxzICU+JSAKICB0b3Bfbihucm93KC4pLTIsIHd0ID0gLUJvZHlXdCkgJT4lIApnZ3Bsb3QoLixhZXMoQnJhaW5XdCwgQm9keVd0KSkrCiAgZ2VvbV9wb2ludCgpCiNTaWd1ZSB0ZW5pZW5kbyB1biBvdXRsaWVyIHkgcmVsYWNpw7NuIG5vIGxpbmVhbAoKbWFtbWFscyAlPiUgCiAgdG9wX24obnJvdyguKS0yLCB3dCA9IC1Cb2R5V3QpICU+JQogIHN1bW1hcmlzZSgKICAgIGNvcnIgPSBjb3IoQnJhaW5XdCwgQm9keVd0KQogICkKCmBgYAoKCmMpIFJlYWxpY2UgdW4gc2NhdHRlcnBsb3QgY29uIHRvZGFzIGxhcyBvYnNlcnZhY2lvbmVzLCBkZWwgbG9nYXJpdG1vIChlbiBiYXNlIDEwLCBvIGVuIGJhc2UgZSkgZGVsIHBlc28gZGVsIGNlcmVicm8gZW4gZnVuY2nDs24gZGVsIGxvZ2FyaXRtbyBkZWwgcGVzbyBjb3Jwb3JhbC4gT2JzZXJ2ZSBlbCBncsOhZmNvLiDCv0PDs21vIGxvIGRlc2NyaWJpcsOtYT8gQ2FsY3VsZSBsYSBjb3JyZWxhY2nDs24gZGUgUGVhcnNvbiBwYXJhIGxvcyBkYXRvcyB0cmFuc2Zvcm1hZG9zLgogIAogIApgYGB7cn0KZ2dwbG90KG1hbW1hbHMsIGFlcyhCcmFpbld0LEJvZHlXdCkpKwogIGdlb21fcG9pbnQoKSsKICBzY2FsZV94X2xvZzEwKCkrCiAgc2NhbGVfeV9sb2cxMCgpCgpjb3IobG9nKG1hbW1hbHMkQnJhaW5XdCksIGxvZyhtYW1tYWxzJEJvZHlXdCkpCmBgYAogIAogICAKZCkgUGFyYSBhbWJvcyBjb25qdW50b3MgZGUgZGF0b3MgKHRyYW5zZm9ybWFkb3MgcG9yIGVsIGxvZ2FyaXRtbyB5IHNpbiB0cmFuc2Zvcm1hcikgY2FsY3VsZSBsYSBjb3JyZWxhY2nDs24gZGUgU3BlYXJtYW4uCgpgYGB7cn0KY29yKG1hbW1hbHMkQnJhaW5XdCwgbWFtbWFscyRCb2R5V3QsIG1ldGhvZCA9ICJzcGVhcm1hbiIpCmNvcihsb2cobWFtbWFscyRCcmFpbld0KSwgbG9nKG1hbW1hbHMkQm9keVd0KSwgbWV0aG9kID0gInNwZWFybWFuIikKYGBgCgojIyMgRWplcmNpY2lvIDEuOCAKwr9Db24gcXXDqSBjb2VmY2llbnRlIGRlIGNvcnJlbGFjacOzbiwgUGVhcnNvbiBvIFNwZWFybWFuLCByZXN1bWlyw61hIGxvcyBkYXRvcyBkZSBjYXJzPyh3ZWlnaHQsIG1wZ0NpdHkpOgpfX1BlYXJzb25fXwo=

Ejercicios modelo lineal. I