我已阅读此页面的待遇 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解TD学习如何用于神经网络。我正在尝试制作一个使用TD学习的跳棋AI,类似于他们在步步高中实现的。请解释TD反向传播的工作。
我已经提到了这个问题 - Neural Network and Temporal Difference Learning 但我无法理解接受的答案。如果可能,请用不同的方法解释。
答案 0 :(得分:4)
在 神经网络中未使用TD学习。相反,在TD学习中使用神经网络来存储值(或q值)函数。
我认为你将反向传播(神经网络的概念)与RL中的自举混淆。 Bootstrapping使用最近信息和先前估计的组合来生成新的估计。
当状态空间很大并且不容易将值函数存储在表中时,神经网络被用作存储值函数的近似方案。
关于前向/后向视图的讨论更多是关于资格跟踪等。一个RL引导serider提前步骤的情况。然而,这是不实际的,并且有一些方法(例如资格痕迹)留下痕迹并更新过去的状态。
这不应与神经网络中的反向传播相关联或混淆。它与它无关。