我是编程和R的新手,我目前正在处理一个非常大的数据集(300列和400k行)。有些列不是数字形式(例如,有些列包括客户ID,国家/地区名称,城市名称等。)
我希望R忽略这些列,只是给我一些列组合的名称,它们之间的相关性高于.95或低于-.95,因为通常这样的列只会在ML中创建噪声,并且可以用于减少特征。
这样的事情: 第1栏第2栏相关: xyz cvg 0.964 xyz yut 0.951 yut cvg 0.967
如果您需要更多信息,请与我们联系。谢谢你的时间。
此致 InWoods
答案 0 :(得分:1)
尝试使用可用的详细信息了解您的问题,您的基本问题似乎是从data.frame中提取数字列。看一下is.numeric()
函数即可开始。