是否有必要同时运行带有交叉验证的随机森林

时间:2013-03-25 06:13:43

标签: machine-learning classification random-forest

随机森林是一种强大的算法。在随机森林中,它训练几棵小树并具有OOB精度。但是,是否有必要同时对随机森林进行交叉验证?

2 个答案:

答案 0 :(得分:4)

OOB错误是对随机森林的错误的无偏估计,所以这很好。但你在使用交叉验证是什么?如果您将RF与其他未使用装袋的算法进行比较,则需要采用低差异方式来比较它们。无论如何,您必须使用交叉验证来支持其他算法。然后使用交叉验证样本拆分RF和其他算法仍然是一个好主意,这样你就可以摆脱分割选择引起的差异。

如果您将一个RF与另一个RF与不同的功能集进行比较,那么比较OOB错误是合理的。如果您确保两个RF在训练期间使用相同的套袋设置,则尤其如此。

答案 1 :(得分:4)

您不需要执行任何类型的验证。如果您只是想使用它,并且不关心过度拟合的风险

对于科学出版(或其他任何你比较不同分类器的质量的地方),你应该验证你的结果,交叉验证是最好的做法。