为什么随机森林中的更多功能会大大降低准确性?

时间:2019-01-03 05:22:47

标签: scikit-learn random-forest

我正在使用sklearn的随机森林模块来预测基于50个不同维度的值。当我将尺寸数增加到150时,模型的精度会急剧下降。我希望有更多的数据只会使模型更准确,但是更多的功能会使模型的准确性降低。

我怀疑拆分只能在一个维度上完成,这意味着实际上更重要的特征在构建树时会受到较少的关注。这可能是原因吗?

2 个答案:

答案 0 :(得分:0)

是的,您添加的其他功能可能没有良好的预测能力,并且由于随机森林采用随机的特征子集来构建单个树,因此可能错过了最初的50个特征。为了检验这个假设,您可以使用sklearn绘制变量重要性。

答案 1 :(得分:0)

您的模型是过度拟合数据。

来自维基百科:

过度拟合模型是一种统计模型,其中包含的参数超出了数据可以证明的范围。

https://qph.fs.quoracdn.net/main-qimg-412c8556aacf7e25b86bba63e9e67ac6-c

有很多关于过度拟合的说明,但是例如,此2d图表示针对二进制分类任务将学习的不同功能。由于右侧的函数有太多参数,因此它会学习错误的数据模式,这些数据不能正确地概括