在深度强化学习中,我应该计算每小批损失一次还是每小批损失一次?

时间:2020-05-18 03:12:38

标签: neural-network pytorch reinforcement-learning loss-function mini-batch

神经网络和Pytorch的新手。

每个迷你批次中都有300个重播记忆。我见过人们为300个重播记忆计算一次损失,但这对我来说真的没有意义。 300个重播记忆来自非常不同的游戏状态,为什么将预测和目标之间的300个差异组合为一个值才有意义?当模型向后传播时,梯度是否分为300个分支,每个分支对应于迷你批处理中的一个条目?

例如,仍然使用迷你批次,每个批次中都有300个重播记忆。我的策略网络输出10个动作或300 x 10张量的概率分布,而我的目标概率分布具有相同的形状。我想找到我的预测与目标之间的交叉熵损失。我想知道是否应该在300个[10]张量的预测目标对之间找到300个交叉熵损失,或者在1个[3000]张量的预测目标对之间找到1个交叉熵损失。 。另外我应该如何在Pytorch中实现呢?我应该期待什么样的损失?

1 个答案:

答案 0 :(得分:0)

已解决。损失将是一个浮动,是300个迷你批次的总和。