我最近开始使用R,并且我想获得一组特定变量的相关矩阵。我的数据集包含150多个变量,但是我仅使用其中的几个。如何选择要生产的产品?预先感谢!
答案 0 :(得分:1)
这将计算内置数据帧anscombe的第二,第三和第四变量的相关性:
cor(anscombe[2:4])
## x2 x3 x4
## x2 1.0 1.0 -0.5
## x3 1.0 1.0 -0.5
## x4 -0.5 -0.5 1.0
这样做(假设它们具有指定的名称):
cor(anscombe[c("x2", "x3", "x4")])
答案 1 :(得分:0)
我喜欢使用dplyr
软件包。例如,如果您的数据集名为dataset
,请执行以下操作:
library(dplyr)
然后假装您的数据集为:
dataset <- data.frame(x = c(1, 2, 3),
y = c(4, 5, 6),
z = c(100, 50, 20))
然后:
dataset %>%
as.data.frame() %>%
select(x, z) %>% # select the variables
as.matrix() %>%
cor() # the correlation matrix
# x z
# x 1.0000000 -0.9897433
# z -0.9897433 1.0000000
此方法是充分的证明。我们不知道您的数据集当前是 dataframe 还是 matrix ,这会影响您使用的代码。这段代码考虑了这一点。