我尝试跟随Martin Gorner's lecture on using TensorFlow和tutorial at the official TensorFlow documentation。
我很困惑为什么在戈尔纳的演讲中,他使用了标签和预测之间的点积的负和。但在TensorFlow教程中,它使用相同的方法,但随后将其除以获得每个小批量的均值。
基本上只要你扩大学习率,两者都会有效,但我不明白方法差异的原因。
答案 0 :(得分:2)
使用均值而不是和使得目标函数的大小对于小批量大小的选择是不变的。因此,当您决定更改迷你批量大小时,您可以获得与以前相同的学习率,以便仍能正常运行。
其他超参数也是如此,例如L2正则化因子。
答案 1 :(得分:0)
似乎均值可以控制非常不同的变量,它的规模非常大。当您使用总和时,没有保证变量的谐波标度。但是使用mean
,您确定没有very different
变量。