应用错误收集

随机森林对看不见的数据做了什么？

时间：2016-08-16 16:57:42

标签： python machine-learning scikit-learn random-forest

当我在python中使用scikit learn构建我的随机森林模型时，我设置了一个条件（sql查询中的where子句），以便训练数据只包含值大于0的值。

我很想知道随机林如何处理其值小于0的测试数据，这是随机森林模型在训练数据中从未见过的。

1 个答案:

答案 0 :(得分：0)

它们的处理方式与训练集中已经遇到的最小值相同。 RF只是一堆投票决策树，而（基本）DT只能以“如果特征X是＆gt;然后T向左，否则向右”的形式形成决策。因此，如果您将其与适用于给定特征的数据仅适用于[0，inf]中的数据，则它将根本不使用此功能或以上面给出的形式使用它（作为形式的决定“如果X是>而不是T“，其中T必须来自（0，inf）以对训练数据有任何意义）。因此，如果您只是获取新数据并将负值更改为“0”，则结果将完全相同。