为什么动量作为时间常数在平行训练的第一个时期是不同的?

时间:2017-01-12 20:04:19

标签: cntk

鉴于配置momentumPerMB=0.9,我在第一个时代的路上观察momentumAsTimeConstant的值。剩余的时代具有预期的这个价值。这似乎只发生在并行训练中(1bit和BM,尚未验证MA)。

01/11/2017 00:08:08: Starting Epoch 1: learning rate per sample = 0.000500 effective momentum = 0.900000 momentum as time constant = 155504.2 samples 01/11/2017 00:18:04: Starting Epoch 2: learning rate per sample = 0.000500 effective momentum = 0.900000 momentum as time constant = 19438.0 samples

为什么会发生这种情况?

1 个答案:

答案 0 :(得分:1)

我们建议您指定momentumAsTimeConstant,因为此度量对于小批量大小不变。