应用错误收集

基于极随机化树和特征冗余的特征重要性

时间：2013-01-13 14:27:16

标签： python-2.7 scikit-learn

我正在使用Scikit-learn极随机树算法来获取有关相关特征重要性的信息，我对如何对“冗余特征”进行排名提出了疑问。

如果我有两个相同（冗余）且对分类很重要的功能，则极度随机化的树无法检测到功能的冗余。也就是说，这两个功能都获得了很高的排名。有没有其他方法可以检测到两个特征实际上是多余的？

1 个答案:

答案 0 :(得分：0)

也许您可以提取前n个重要特征，然后计算成对Spearman或Pearson的相关性，以便仅检测顶部信息特征的冗余，因为计算所有成对特征相关可能是不可行的（二次与数字相关）特征）。

通过利用决策树中节点相对出现次数的统计数据，可能有更聪明的方法来做同样的事情。