应用错误收集

使用时间差异学习有什么意义？

时间：2017-11-26 07:58:16

标签： reinforcement-learning temporal-difference

据我所知，对于特定政策\ pi，时间差异学习让我们计算遵循该政策\ pi的预期价值，但了解具体政策的含义是什么？

我们不应该尝试为特定环境寻找最优政策吗？使用时差学习做特定的\ pi有什么意义？

1 个答案:

答案 0 :(得分：1)

正如您所说，在一般情况下，只找到给定政策的价值函数并非常有用，其目标是找到最优政策。但是，SARSA或Q-learning等几种经典算法可以视为generalized policy iteration的特例，其中最困难的部分是找到策略的值函数。一旦知道了值函数，就很容易找到更好的策略，然后再次找到最近计算的策略的值函数，依此类推。在某些条件下，这一过程会收敛到最优政策。

总之，temporal difference learning是其他算法中的关键步骤，可以找到最优政策。