应用错误收集

时间：2016-02-14 06:30:39

标签： machine-learning neural-network backpropagation reinforcement-learning temporal-difference

我已阅读此页面的待遇 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解TD学习如何用于神经网络。我正在尝试制作一个使用TD学习的跳棋AI，类似于他们在步步高中实现的。请解释TD反向传播的工作。

我已经提到了这个问题 - Neural Network and Temporal Difference Learning 但我无法理解接受的答案。如果可能，请用不同的方法解释。

答案 0 :(得分：4)

在神经网络中未使用TD学习。相反，在TD学习中使用神经网络来存储值（或q值）函数。

我认为你将反向传播（神经网络的概念）与RL中的自举混淆。 Bootstrapping使用最近信息和先前估计的组合来生成新的估计。

当状态空间很大并且不容易将值函数存储在表中时，神经网络被用作存储值函数的近似方案。

关于前向/后向视图的讨论更多是关于资格跟踪等。一个RL引导serider提前步骤的情况。然而，这是不实际的，并且有一些方法（例如资格痕迹）留下痕迹并更新过去的状态。

这不应与神经网络中的反向传播相关联或混淆。它与它无关。