学习曲线中的随机森林评估准确性跳跃

时间:2020-09-08 20:16:50

标签: machine-learning random-forest

我创建了一个随机森林分类器(使用分层10倍CV重复进行约6000次观察)。我在其上运行该分类器的三个数据集中的每个数据集都是平衡的(3000是; 3000否)。我正在尝试使用一种功能(中间值表达)预测分子的存在(是/否)。我获得了较低的准确度,这对于仅利用这一功能是正常的。但是,在绘制学习曲线时,我注意到我尝试在大约2000个训练示例中使用该模型的三个数据集的准确性都有所提高(请参见下图)。我找出了错误归类的观测值(约2000个观测值),将它们从数据集中删除,然后重新运行模型,这又导致了大约1200个训练示例的准确性出现了跳跃。

对于我如何确定是什么原因导致学习曲线中的这种怪异的准确性跳跃,您有何建议?为什么该模型需要2000个训练示例来提高准确性(我使用的中位表达特征不应该如此)?

enter image description here

0 个答案:

没有答案