标签: machine-learning neural-network reinforcement-learning backpropagation q-learning
经过大量研究,我仍然找不到关于这个问题的简洁答案:
让我们假设“ lo”是我们用贝尔曼方程计算的状态-动作对的损失。 我不明白这里哪一个是正确的:
我应该为网络中的每个输出Q(s,a)反向分配相同的损失吗?
我应该只反向传播我从中选择动作的特定输出神经元的损失吗?(不反向传播其余输出神经元。这意味着如果我们在10个可能的动作中选择动作3,我们只会反向传播来自输出神经元3)。
我应该为每个Q(sn,an)计算Q *(sn,an),然后每次反向传播这2个的损失吗?据我了解,这是不正确的。