当我在python中使用scikit learn构建我的随机森林模型时,我设置了一个条件(sql查询中的where子句),以便训练数据只包含值大于0的值。
我很想知道随机林如何处理其值小于0的测试数据,这是随机森林模型在训练数据中从未见过的。
答案 0 :(得分:0)
它们的处理方式与训练集中已经遇到的最小值相同。 RF只是一堆投票决策树,而(基本)DT只能以“如果特征X是>然后T向左,否则向右”的形式形成决策。因此,如果您将其与适用于给定特征的数据仅适用于[0,inf]中的数据,则它将根本不使用此功能或以上面给出的形式使用它(作为形式的决定“如果X是>而不是T“,其中T必须来自(0,inf)以对训练数据有任何意义)。因此,如果您只是获取新数据并将负值更改为“0”,则结果将完全相同。