我有一个相对较大的数据集(8000多个条目和600个变量)。其中,大约424个变量是数字的。我正在寻找数据集中的任何重要的线性相关性。要做到这一点,我认为几百分的样本最好能够感受到它。我在R中完成了以下操作以查找相关值,但在删除分类变量后我发现自己陷入困境。
#Read in data
the_data = read.csv('Example.csv', header= TRUE, na.strings = "^", strip.white = TRUE, skipNul = TRUE)
#Take only numerical data
my_num_data = mydata[, sapply(the_data, is.numeric)]
#Get correlation
cor(my_num_data, use = "p", method = "pearson")
我与this越来越近,但我仍然无法弄清楚如何识别哪些变量是强相关的。我的CSV有一个有用的标题,但是当我丢弃所有非数字数据时,我将其除去。