缺少基于类的值替换

时间:2015-04-15 04:05:57

标签: machine-learning random-forest missing-data

我一直在阅读有关随机森林的文章,并在缺失值替换部分(https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1)中说:

  

如果第m个变量不是分类变量,则该方法计算类j中此变量的所有值的中值,然后使用该值替换类j中第m个变量的所有缺失值。

不会破坏整个过程吗?如果缺少某些列中的大多数值,则在此过程之后,可以使用新值来轻松识别类,并且生成的分类器将是无用的。我在这里错过了什么吗?

1 个答案:

答案 0 :(得分:0)

生成的分类器不一定无用,它取决于“缺失”的特征(缺少特征值的事件)。如果它在火车和测试集之间的分布是相同的(这是ML中普遍存在的隐含假设),它就是做正确的事情。然而,如果存在差异,确实存在问题,例如,如果缺失值是生成训练数据的方式的人工产物并且主要与一个类相关联,则在测试时特征值总是完全已知的。在这种情况下,估算可能会导致错误的结论,特别是如果缺失值的数量很大。