Correlacion

library(tidyverse)
library(openintro)
#install.packages("GGally")
library(GGally)
library(corrr)
library(knitr)
library(kableExtra)
options(knitr.table.format = "html")

En estas notas de clase veremos el concepto de correlación:

\[\rho_{x,y}=\frac{cov(x,y)}{\sigma_x \sigma_y}\]

mtcars

primero, veamos de qué se trata el dataset. Para esto, hacemos un head() de la tabla. Aprovechamos para usar la librería knitr, cuya función kable() permite realizar mejores presentaciones de resultados. Con kable_styling() podemos modificar algunas características de la tabla

mtcars %>% 
  head() %>% 
  kable() %>% 
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"))

	mpg	cyl	disp	hp	drat	wt	qsec	vs	am	gear	carb
Mazda RX4	21.0	6	160	110	3.90	2.620	16.46	0	1	4	4
Mazda RX4 Wag	21.0	6	160	110	3.90	2.875	17.02	0	1	4	4
Datsun 710	22.8	4	108	93	3.85	2.320	18.61	1	1	4	1
Hornet 4 Drive	21.4	6	258	110	3.08	3.215	19.44	1	0	3	1
Hornet Sportabout	18.7	8	360	175	3.15	3.440	17.02	0	0	3	2
Valiant	18.1	6	225	105	2.76	3.460	20.22	1	0	3	1

Con ggpairs(), podemos graficar todas las variables, y buscar las correlaciones

Coloreamos por:

-\(am\): Tipo de transmisión: automatico (am=0) o manual (am=1)

mtcars %>% 
  select(-carb,-vs) %>% 
  mutate(cyl = factor(cyl),
         am = factor(am)) %>% 
ggpairs(., 
        title = "Matriz de correlaciones",
        mapping = aes(colour= am))

Librería corrr

Esta librería pertenece al entorno de tidymodels

mtcars %>% 
 correlate() %>% 
  shave() %>% 
  fashion()


Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

mtcars %>% 
 correlate() %>% 
  network_plot(min_cor = 0.7)


Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

mtcars %>% 
 correlate() %>% 
  rplot()


Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

Veamos la correlación entre:

\(mpg\): Miles/(US) gallon. Eficiencia de combustible
\(hp\): Gross horsepower: Potencia del motor

Miramos el scatter plot y pareciera haber una relación negativa.

La mitad superior de la matriz muestra la estimación puntual de la correlación, para todos los datos y considerando cada conjunto por separado. Recordemos que la fórmula para calcular ese estimador es:

\[ r = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2} \sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} \]

Si quisieramos testear la significatividad de este estimador:

\(H_0\) : ρ =0
\(H_1\) : ρ \(\neq\) 0

cor.test(mtcars$mpg,mtcars$hp)


    Pearson's product-moment correlation

data:  mtcars$mpg and mtcars$hp
t = -6.7424, df = 30, p-value = 1.788e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.8852686 -0.5860994
sample estimates:
       cor 
-0.7761684

Con este p-value rechazamos \(H_0\)

¿y si queremos comparar la relación entre \(drat\) y \(gear\)?

\(drat\): la relación de engranaje del eje trasero: indica el número de vueltas del eje de transmisión para cada rotación del eje de la rueda. Un vehículo con una relación alta proporcionaría más par y, por lo tanto, más capacidad de remolque, por ejemplo
\(gear\): Número de velocidades hacia adelante

Con ggpairs() ya habíamos visto que la relación era diferente entre los automáticos y con transmisión manual. Sabiendo esto, volvamos a calcular los estimadores puntuales de cada grupo

mtcars %>% 
  group_by(am) %>% 
  summarise(cor = cor(drat, gear))

La correlación para los autos automáticos da súper alto! quedemosnos con ese grupo

mtcars2 <- mtcars %>% filter(am==0)
ggplot(mtcars2, aes(gear,drat, group=gear, fill = factor(gear)))+
  geom_boxplot(alpha= 0.75)

No parece muy correcto hacer un test de correlación de pearson, es decir buscar una relación lineal, con una variable que sólo toma dos valores.

Usemos el test de correlación de Spearman


cor.test(mtcars2$gear,mtcars2$drat, method = "pearson")


    Pearson's product-moment correlation

data:  mtcars2$gear and mtcars2$drat
t = 5.1262, df = 17, p-value = 8.421e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5030694 0.9110028
sample estimates:
      cor 
0.7792264

cor.test(mtcars2$gear,mtcars2$drat, method = "spearman")

Cannot compute exact p-value with ties


    Spearman's rank correlation rho

data:  mtcars2$gear and mtcars2$drat
S = 383.98, p-value = 0.001968
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.6631736

Noten que el test de Spearman ya no da tan significativo como el de Pearson

LS0tCnRpdGxlOiAiQ29ycmVsYWNpb24iCm91dHB1dDoKICBodG1sX25vdGVib29rOgogICAgdGhlbWU6IHNwYWNlbGFiCiAgICBkZl9wcmludDogcGFnZWQKLS0tCgpgYGB7ciBtZXNzYWdlPUZBTFNFfQpsaWJyYXJ5KHRpZHl2ZXJzZSkKbGlicmFyeShvcGVuaW50cm8pCiNpbnN0YWxsLnBhY2thZ2VzKCJHR2FsbHkiKQpsaWJyYXJ5KEdHYWxseSkKbGlicmFyeShjb3JycikKbGlicmFyeShrbml0cikKbGlicmFyeShrYWJsZUV4dHJhKQpvcHRpb25zKGtuaXRyLnRhYmxlLmZvcm1hdCA9ICJodG1sIikgCmBgYAoKCkVuIGVzdGFzIG5vdGFzIGRlIGNsYXNlIHZlcmVtb3MgZWwgY29uY2VwdG8gZGUgY29ycmVsYWNpw7NuOiAKCiQkXHJob197eCx5fT1cZnJhY3tjb3YoeCx5KX17XHNpZ21hX3ggXHNpZ21hX3l9JCQKCiMjIG10Y2FycwoKcHJpbWVybywgdmVhbW9zIGRlIHF1w6kgc2UgdHJhdGEgZWwgZGF0YXNldC4gUGFyYSBlc3RvLCBoYWNlbW9zIHVuIGBoZWFkKClgIGRlIGxhIHRhYmxhLiBBcHJvdmVjaGFtb3MgcGFyYSB1c2FyIGxhIGxpYnJlcsOtYSBga25pdHJgLCBjdXlhIGZ1bmNpw7NuIGBrYWJsZSgpYCBwZXJtaXRlIHJlYWxpemFyIG1lam9yZXMgcHJlc2VudGFjaW9uZXMgZGUgcmVzdWx0YWRvcy4gQ29uIGBrYWJsZV9zdHlsaW5nKClgIHBvZGVtb3MgbW9kaWZpY2FyIGFsZ3VuYXMgY2FyYWN0ZXLDrXN0aWNhcyBkZSBsYSB0YWJsYQoKCmBgYHtyfQptdGNhcnMgJT4lIAogIGhlYWQoKSAlPiUgCiAga2FibGUoKSAlPiUgCiAga2FibGVfc3R5bGluZyhib290c3RyYXBfb3B0aW9ucyA9IGMoInN0cmlwZWQiLCAiaG92ZXIiLCAiY29uZGVuc2VkIiwgInJlc3BvbnNpdmUiKSkKYGBgCgoKQ29uIGBnZ3BhaXJzKClgLCBwb2RlbW9zIGdyYWZpY2FyIHRvZGFzIGxhcyB2YXJpYWJsZXMsIHkgYnVzY2FyIGxhcyBjb3JyZWxhY2lvbmVzCgpDb2xvcmVhbW9zIHBvcjoKCi0kYW0kOiBUaXBvIGRlIHRyYW5zbWlzacOzbjogYXV0b21hdGljbyAoYW09MCkgbyBtYW51YWwgKGFtPTEpCgoKYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRSwgZmlnLndpZHRoPTEwLCBmaWcuaGVpZ2h0PTEwfQptdGNhcnMgJT4lIAogIHNlbGVjdCgtY2FyYiwtdnMpICU+JSAKICBtdXRhdGUoY3lsID0gZmFjdG9yKGN5bCksCiAgICAgICAgIGFtID0gZmFjdG9yKGFtKSkgJT4lIApnZ3BhaXJzKC4sIAogICAgICAgIHRpdGxlID0gIk1hdHJpeiBkZSBjb3JyZWxhY2lvbmVzIiwKICAgICAgICBtYXBwaW5nID0gYWVzKGNvbG91cj0gYW0pKQpgYGAKIyMjIExpYnJlcsOtYSBbY29ycnJdKGh0dHBzOi8vZ2l0aHViLmNvbS90aWR5bW9kZWxzL2NvcnJyKSAKCkVzdGEgbGlicmVyw61hIHBlcnRlbmVjZSBhbCBlbnRvcm5vIGRlIF90aWR5bW9kZWxzXyAKCmBgYHtyfQptdGNhcnMgJT4lIAogY29ycmVsYXRlKCkgJT4lIAogIHNoYXZlKCkgJT4lIAogIGZhc2hpb24oKQpgYGAKYGBge3J9Cm10Y2FycyAlPiUgCiBjb3JyZWxhdGUoKSAlPiUgCiAgbmV0d29ya19wbG90KG1pbl9jb3IgPSAwLjcpCmBgYAoKYGBge3J9Cm10Y2FycyAlPiUgCiBjb3JyZWxhdGUoKSAlPiUgCiAgcnBsb3QoKQpgYGAKClZlYW1vcyBsYSBjb3JyZWxhY2nDs24gZW50cmU6CgotICRtcGckOiBNaWxlcy8oVVMpIGdhbGxvbi4gRWZpY2llbmNpYSBkZSBjb21idXN0aWJsZQotICRocCQ6IEdyb3NzIGhvcnNlcG93ZXI6IFBvdGVuY2lhIGRlbCBtb3RvcgoKTWlyYW1vcyBlbCBzY2F0dGVyIHBsb3QgeSBwYXJlY2llcmEgaGFiZXIgdW5hIHJlbGFjacOzbiBuZWdhdGl2YS4gCgpMYSBtaXRhZCBzdXBlcmlvciBkZSBsYSBtYXRyaXogbXVlc3RyYSBsYSBlc3RpbWFjacOzbiBwdW50dWFsIGRlIGxhIGNvcnJlbGFjacOzbiwgcGFyYSB0b2RvcyBsb3MgZGF0b3MgeSBjb25zaWRlcmFuZG8gY2FkYSBjb25qdW50byBwb3Igc2VwYXJhZG8uIFJlY29yZGVtb3MgcXVlIGxhIGbDs3JtdWxhIHBhcmEgY2FsY3VsYXIgZXNlIGVzdGltYWRvciBlczoKCgokJApyID0gXGZyYWN7XHN1bV97aT0xfV5uKHhfaS1cYmFye3h9KSh5X2ktXGJhcnt5fSl9e1xzcXJ0e1xzdW1fe2k9MX1ebih4X2ktXGJhcnt4fSleMn0gXHNxcnR7XHN1bV97aT0xfV5uKHlfaS1cYmFye3l9KV4yfX0KJCQKCgoKU2kgcXVpc2llcmFtb3MgdGVzdGVhciBsYSBzaWduaWZpY2F0aXZpZGFkIGRlIGVzdGUgZXN0aW1hZG9yOgoKJEhfMCQgOiDPgSA9MCAgICAgICAgCiRIXzEkIDogz4EgJFxuZXEkIDAgICAgICAKCmBgYHtyfQpjb3IudGVzdChtdGNhcnMkbXBnLG10Y2FycyRocCkKYGBgCgpDb24gZXN0ZSBwLXZhbHVlIHJlY2hhemFtb3MgJEhfMCQKCgrCv3kgc2kgcXVlcmVtb3MgY29tcGFyYXIgbGEgcmVsYWNpw7NuIGVudHJlICRkcmF0JCB5ICRnZWFyJD8KCi0gJGRyYXQkOiAgbGEgcmVsYWNpw7NuIGRlIGVuZ3JhbmFqZSBkZWwgZWplIHRyYXNlcm86IGluZGljYSBlbCBuw7ptZXJvIGRlIHZ1ZWx0YXMgZGVsIGVqZSBkZSB0cmFuc21pc2nDs24gcGFyYSBjYWRhIHJvdGFjacOzbiBkZWwgZWplIGRlIGxhIHJ1ZWRhLiBVbiB2ZWjDrWN1bG8gY29uIHVuYSByZWxhY2nDs24gYWx0YSBwcm9wb3JjaW9uYXLDrWEgbcOhcyBwYXIgeSwgcG9yIGxvIHRhbnRvLCBtw6FzIGNhcGFjaWRhZCBkZSByZW1vbHF1ZSwgcG9yIGVqZW1wbG8KLSAkZ2VhciQ6IE7Dum1lcm8gZGUgdmVsb2NpZGFkZXMgaGFjaWEgYWRlbGFudGUKCkNvbiBgZ2dwYWlycygpYCB5YSBoYWLDrWFtb3MgdmlzdG8gcXVlIGxhIHJlbGFjacOzbiBlcmEgZGlmZXJlbnRlIGVudHJlIGxvcyBhdXRvbcOhdGljb3MgeSBjb24gdHJhbnNtaXNpw7NuIG1hbnVhbC4gU2FiaWVuZG8gZXN0bywgdm9sdmFtb3MgYSBjYWxjdWxhciBsb3MgZXN0aW1hZG9yZXMgcHVudHVhbGVzIGRlIGNhZGEgZ3J1cG8gCgpgYGB7cn0KbXRjYXJzICU+JSAKICBncm91cF9ieShhbSkgJT4lIAogIHN1bW1hcmlzZShjb3IgPSBjb3IoZHJhdCwgZ2VhcikpCmBgYAoKTGEgY29ycmVsYWNpw7NuIHBhcmEgbG9zIGF1dG9zIGF1dG9tw6F0aWNvcyBkYSBzw7pwZXIgYWx0byEgcXVlZGVtb3Nub3MgY29uIGVzZSBncnVwbwoKYGBge3J9Cm10Y2FyczIgPC0gbXRjYXJzICU+JSBmaWx0ZXIoYW09PTApCmdncGxvdChtdGNhcnMyLCBhZXMoZ2VhcixkcmF0LCBncm91cD1nZWFyLCBmaWxsID0gZmFjdG9yKGdlYXIpKSkrCiAgZ2VvbV9ib3hwbG90KGFscGhhPSAwLjc1KQpgYGAKCgpObyBwYXJlY2UgbXV5IGNvcnJlY3RvIGhhY2VyIHVuIHRlc3QgZGUgY29ycmVsYWNpw7NuIGRlIHBlYXJzb24sIGVzIGRlY2lyIGJ1c2NhciB1bmEgcmVsYWNpw7NuIGxpbmVhbCwgY29uIHVuYSB2YXJpYWJsZSBxdWUgc8OzbG8gdG9tYSBkb3MgdmFsb3Jlcy4KClVzZW1vcyBlbCB0ZXN0IGRlIGNvcnJlbGFjacOzbiBkZSBTcGVhcm1hbgoKYGBge3J9Cgpjb3IudGVzdChtdGNhcnMyJGdlYXIsbXRjYXJzMiRkcmF0LCBtZXRob2QgPSAicGVhcnNvbiIpCmNvci50ZXN0KG10Y2FyczIkZ2VhcixtdGNhcnMyJGRyYXQsIG1ldGhvZCA9ICJzcGVhcm1hbiIpCmBgYAoKCk5vdGVuIHF1ZSBlbCB0ZXN0IGRlIFNwZWFybWFuIHlhIG5vIGRhIHRhbiBzaWduaWZpY2F0aXZvIGNvbW8gZWwgZGUgUGVhcnNvbg==