R-大数据集中的相关矩阵

时间:2017-11-19 18:30:10

标签: r machine-learning

我是编程和R的新手,我目前正在处理一个非常大的数据集(300列和400k行)。有些列不是数字形式(例如,有些列包括客户ID,国家/地区名称,城市名称等。)

我希望R忽略这些列,只是给我一些列组合的名称,它们之间的相关性高于.95或低于-.95,因为通常这样的列只会在ML中创建噪声,并且可以用于减少特征。

这样的事情: 第1栏第2栏相关: xyz cvg 0.964 xyz yut 0.951 yut cvg 0.967

如果您需要更多信息,请与我们联系。谢谢你的时间。

此致 InWoods

1 个答案:

答案 0 :(得分:1)

尝试使用可用的详细信息了解您的问题,您的基本问题似乎是从data.frame中提取数字列。看一下is.numeric()函数即可开始。