在可变长度输入中使用像Adam这样的流行神经网络优化器是否明智?

时间:2018-07-13 08:34:35

标签: neural-network deep-learning recurrent-neural-network adam

比方说,我们的RNN输入的长度可以有很大不同。一个输入可以是batch_size x 13 x num_features,另一个输入可以是batch_size x 150 x num_features。

损失是在批次中所有输入步骤中累积的,然后可以对输入进行平均,但也可以不进行平均而直接保留。 这意味着每一步的损耗可能会非常不同,看起来像随机噪声。

我的问题是,如果我们不求平均值,是不是愚弄了优化器?

0 个答案:

没有答案