我在Scikit包中使用随机森林分类器并绘制了F1分数与训练集大小的关系。红色是训练集F1分数,绿色是验证集的分数。这与我的预期有关,但我想对解释提出一些建议。
答案 0 :(得分:1)
我发现存在一些显着差异,但验证曲线似乎正在趋同。我是否应该假设在给定收敛的情况下添加数据几乎不会影响方差,或者我是否会对收敛速度做出结论?
这似乎是对你的学习过程的真正条件,特别是 - 选择超参数。因此,这并不意味着给定不同的超参数集合会产生相同的效果。似乎只有当前设置 - 收敛速度相对较小,因此达到95%可能需要大量数据。
这里的差异量是否足以保证采取可能略微增加偏差的进一步行动?我意识到这是一个相当特定领域的问题,但我想知道是否有一些关于多少方差值得进行偏差权衡的一般指导原则?
是的,一般来说 - 这种曲线至少不会拒绝选择更高的偏见。你明显过度适应训练集。另一方面,树木通常会这样做,因此在不改变模型的情况下增加偏差可能会很困难。我建议的一个选项是Extremely Randomized Trees,它与随机森林几乎相同,但是随机选择的阈值而不是完全优化。它们具有明显更大的偏差,并且应该使这些曲线彼此更接近。
显然无法保证 - 正如您所说,这是特定于数据的,但总体特征看起来很有希望(但可能需要更改模型)。