我正在使用随机森林。我的测试准确度是70%,而火车的准确度是34%?该怎么办 ?我该如何解决这个问题。
答案 0 :(得分:1)
Test
的准确性不应高于train
,因为该模型已针对后者进行了优化。这种行为可能发生的方式:
您没有使用相同的源数据集进行测试。您应该进行适当的训练/测试拆分,使两者都具有相同的基础分布。您很可能为test
应用了regularization
的不合理程度。即便如此,为了观察到的行为的发生,还是需要有一些“测试数据分布与火车的分布不同”的元素。
答案 1 :(得分:0)
首先,您应该检查用于训练的最终数据。我认为他们的数据有些问题,数据可能没有经过适当的预处理。
在这种情况下,您还应该尝试更多的纪元,并绘制学习曲线, 购买您可以分析的学习曲线,当模型收敛时, 您应该检查以下内容: