我目前正在尝试了解TD-Gammon的工作原理并提出两个问题:
1)我找到了article来解释体重更新。它由三部分组成。最后一部分是V(s)相对于w的区分。在文本中,它被称为“运行总和”。我该如何计算该值? (我只对从输出到隐藏层的重量变化感兴趣,而不是进一步的重量变化)
2)在阅读了这个更新权重的过程之后,出现了一个问题:为什么我们不仅仅为使用强化学习的状态创建目标值并将该值赋予我们的神经网络,以便它学习返回当前状态的值?为什么有一个额外的更新规则直接操纵权重?
答案 0 :(得分:1)
真的,你只需要实现一个使用基本的,通常的平方和误差的ANN。然后,用TD误差值替换目标网络输出:E = r + gamma * V(t + 1) - V(t)
从那里,你可以使用典型的ANN backprop权重更新规则。
因此,简而言之,我认为您的描述实际上是通过ANN算法应该做的RL。它正在训练ANN以学习状态/动作值函数。