我有一个45个变量之间相关性的数据框,并且已经添加了由'varImp'函数给每个变量值的随机森林重要性值(我使用这些数据运行了随机森林训练模型。
我想遍历每一列,无论变量的相关性超过.8(绝对值),删除该行变量或该列变量,以较低的'varImp'重要性为准< / strong>即可。我还想从列/行中删除相同的变量(因为它是一个相关矩阵,所有变量都显示在行和列中)。
例如,roll_belt和max_picth_belt的相关性为〜.97,因为与max_picth_belt的3.16相比,roll_belt的值为3.77,我想将max_pitch_belt作为一行和一列删除。
感谢您的帮助!
答案 0 :(得分:0)
我确信必须有一种更直接的方式。不过,我的代码完成了这项工作。
假设我们已将您的数据集加载到名为df
的对象中(我不包含用于获取数据的代码,因为它不相关)。
首先,我将数据本身和用于测试功能重要性的value
列分开是很方便的。名为test.value
的新对象是第46列。
test.value <- df$value
df <- df[,-ncol(df)] # remove the last column from the dataset
现在我们准备开始了。
框架。我们需要确定要从数据集中删除的行/列数。所以我们会:
remove
代码是:
remove <- c() # a vector to store features to be removed
for(i in 1:ncol(df)){
coli <- df[,i] # pick up i-th column
highcori <- coli>.8 & coli!=1 # logical vector of cors > 0.8
# go further only if there are cors > 0.8
if(sum(highcori,na.rm = T)>0){
posi <- which(highcori) # identify positions of cors > 0.8
# compare feature importance one by one
for(k in 1:length(posi)){
remi <- ifelse(test.value[i]>test.value[posi[k]],posi[k],i)
remove <- c(remove,remi) # store the less valued feature
}
}
}
remove <- sort(unique(remove)) # keep only unique entries
df.clean <- df[-remove,-remove] # finally, clean the dataset
那就是它。
UPDATE
对于那些能够提供更好解决方案的人来说,这里的数据易于阅读,cor.remove.RData
OR
如果你更喜欢dput
dput.df.txt
dput.test.value.txt
我很想看到更好的解决方法。