标签: neural-network deep-learning recurrent-neural-network adam
比方说,我们的RNN输入的长度可以有很大不同。一个输入可以是batch_size x 13 x num_features,另一个输入可以是batch_size x 150 x num_features。
损失是在批次中所有输入步骤中累积的,然后可以对输入进行平均,但也可以不进行平均而直接保留。 这意味着每一步的损耗可能会非常不同,看起来像随机噪声。
我的问题是,如果我们不求平均值,是不是愚弄了优化器?