双向Q学习DQN的反向传播

时间:2020-06-16 22:22:05

标签: machine-learning neural-network reinforcement-learning backpropagation q-learning

经过大量研究,我仍然找不到关于这个问题的简洁答案:

让我们假设“ lo”是我们用贝尔曼方程计算的状态-动作对的损失。 我不明白这里哪一个是正确的:

  1. 我应该为网络中的每个输出Q(s,a)反向分配相同的损失吗?

  2. 我应该只反向传播我从中选择动作的特定输出神经元的损失吗?(不反向传播其余输出神经元。这意味着如果我们在10个可能的动作中选择动作3,我们只会反向传播来自输出神经元3)。

  3. 我应该为每个Q(sn,an)计算Q *(sn,an),然后每次反向传播这2个的损失吗?据我了解,这是不正确的。

0 个答案:

没有答案