应用错误收集

双向Q学习DQN的反向传播

时间：2020-06-16 22:22:05

标签： machine-learning neural-network reinforcement-learning backpropagation q-learning

经过大量研究，我仍然找不到关于这个问题的简洁答案：

让我们假设“ lo”是我们用贝尔曼方程计算的状态-动作对的损失。我不明白这里哪一个是正确的：

我应该为网络中的每个输出Q（s，a）反向分配相同的损失吗？
我应该只反向传播我从中选择动作的特定输出神经元的损失吗？（不反向传播其余输出神经元。这意味着如果我们在10个可能的动作中选择动作3，我们只会反向传播来自输出神经元3）。
我应该为每个Q（sn，an）计算Q *（sn，an），然后每次反向传播这2个的损失吗？据我了解，这是不正确的。

0 个答案:

没有答案