应用错误收集

我有一个相对较大的数据集（8000多个条目和600个变量）。其中，大约424个变量是数字的。我正在寻找数据集中的任何重要的线性相关性。要做到这一点，我认为几百分的样本最好能够感受到它。我在R中完成了以下操作以查找相关值，但在删除分类变量后我发现自己陷入困境。

#Read in data
the_data = read.csv('Example.csv', header= TRUE, na.strings = "^", strip.white = TRUE, skipNul = TRUE)
#Take only numerical data
my_num_data = mydata[, sapply(the_data, is.numeric)]
#Get correlation
cor(my_num_data, use = "p", method = "pearson")

我与this越来越近，但我仍然无法弄清楚如何识别哪些变量是强相关的。我的CSV有一个有用的标题，但是当我丢弃所有非数字数据时，我将其除去。

在R中的广泛数据集中查找最高度相关的数值变量

0 个答案: