为什么不训练部分时代?

时间:2017-04-28 13:50:05

标签: machine-learning deep-learning

似乎没有人会说他们的模型说“10。5”时代。这是什么理论原因?

对我来说有点直观的是,如果我有一套完美独特的训练样本,那么在训练过度和过度训练之间的最佳膝点应该在完整的时期之间。然而,在大多数情况下,个别训练样本通常会以某种方式相似/相关。

是否存在基于统计数据的可靠原因?或者,有没有人根据经验进行调查?

1 个答案:

答案 0 :(得分:2)

我对这个前提提出质疑:我工作的地方,我们经常运行部分时期,尽管大数据集的范围更高:例如,40.72个时期。

对于小型数据集或短期训练,这是一个以相同的权重对待每个观察的问题,因此很自然地认为每个观察者需要处理相同的次数。正如您所指出的,如果输入样本是相关的,那么这样做就不那么重要了。

我认为一个基本原因是方便:整数更容易解释和讨论。 对于许多模型,在最佳训练中没有膝盖:它是一条平缓的曲线,因此几乎可以肯定在精确度的“最佳点”内有一个整数个时期。因此,更方便的是发现10个时期略好于11个,即使最佳点(在多次训练中发现迭代计数的微小差异)恰好是10.2个时期。收益递减表明,如果9-12个时代给我们非常相似,良好的结果,我们只需注意10是8-15个时期范围内的最佳表现,接受结果,并继续生活。