选择相关矩阵的变量

时间:2019-04-21 15:21:35

标签: r correlation

我最近开始使用R,并且我想获得一组特定变量的相关矩阵。我的数据集包含150多个变量,但是我仅使用其中的几个。如何选择要生产的产品?预先感谢!

2 个答案:

答案 0 :(得分:1)

这将计算内置数据帧anscombe的第二,第三和第四变量的相关性:

cor(anscombe[2:4])
##      x2   x3   x4
## x2  1.0  1.0 -0.5
## x3  1.0  1.0 -0.5
## x4 -0.5 -0.5  1.0

这样做(假设它们具有指定的名称):

cor(anscombe[c("x2", "x3", "x4")])

答案 1 :(得分:0)

我喜欢使用dplyr软件包。例如,如果您的数据集名为dataset,请执行以下操作:

library(dplyr)

然后假装您的数据集为:

dataset <- data.frame(x = c(1, 2, 3), 
                      y = c(4, 5, 6), 
                      z = c(100, 50, 20))

然后:

dataset %>%
  as.data.frame() %>%                
  select(x, z) %>%                   # select the variables
  as.matrix() %>%                   
  cor()                              # the correlation matrix

#            x          z
# x  1.0000000 -0.9897433
# z -0.9897433  1.0000000

此方法是充分的证明。我们不知道您的数据集当前是 dataframe 还是 matrix ,这会影响您使用的代码。这段代码考虑了这一点。