基于极随机化树和特征冗余的特征重要性

时间:2013-01-13 14:27:16

标签: python-2.7 scikit-learn

我正在使用Scikit-learn极随机树算法来获取有关相关特征重要性的信息,我对如何对“冗余特征”进行排名提出了疑问。

如果我有两个相同(冗余)且对分类很重要的功能,则极度随机化的树无法检测到功能的冗余。也就是说,这两个功能都获得了很高的排名。有没有其他方法可以检测到两个特征实际上是多余的?

1 个答案:

答案 0 :(得分:0)

也许您可以提取前n个重要特征,然后计算成对Spearman或Pearson的相关性,以便仅检测顶部信息特征的冗余,因为计算所有成对特征相关可能是不可行的(二次与数字相关)特征)。

通过利用决策树中节点相对出现次数的统计数据,可能有更聪明的方法来做同样的事情。