随机森林显示的特征重要性要高于不那么相关的特征

时间:2018-07-23 17:20:06

标签: machine-learning random-forest

现在我正在尝试使用局部特征通过随机森林回归器预测局部目标。例如,总数据包含有关3个区域的信息,但是我只想预测区域1的目标值。因此,我只使用了区域1的特征以及所有特征来进行训练。

与使用全局信息相比,仅使用局部特征可提供更高的测试准确性(0.97与0.86)。是否表示区域1以外的特征是多余的?但是,整体模型的特征重要性显示,平均而言,区域2中特征的重要性更高。

我期望两者之间具有一致性,也就是说,相对于区域1中的目标,全局模型在区域1中显示出更高的特征重要性,但是结果却说明了另一个问题。

我该如何解释?还是我还能如何证明局部特征对局部目标更重要,因为准确性似乎如此?

我对随机森林算法不是很熟悉。谢谢您的耐心等待!

0 个答案:

没有答案