我正在使用Scikit-learn极随机树算法来获取有关相关特征重要性的信息,我对如何对“冗余特征”进行排名提出了疑问。
如果我有两个相同(冗余)且对分类很重要的功能,则极度随机化的树无法检测到功能的冗余。也就是说,这两个功能都获得了很高的排名。有没有其他方法可以检测到两个特征实际上是多余的?
答案 0 :(得分:0)
也许您可以提取前n个重要特征,然后计算成对Spearman或Pearson的相关性,以便仅检测顶部信息特征的冗余,因为计算所有成对特征相关可能是不可行的(二次与数字相关)特征)。
通过利用决策树中节点相对出现次数的统计数据,可能有更聪明的方法来做同样的事情。