使用时间差异学习有什么意义?

时间:2017-11-26 07:58:16

标签: reinforcement-learning temporal-difference

据我所知,对于特定政策\ pi,时间差异学习让我们计算遵循该政策\ pi的预期价值,但了解具体政策的含义是什么?

我们不应该尝试为特定环境寻找最优政策吗?使用时差学习做特定的\ pi有什么意义?

1 个答案:

答案 0 :(得分:1)

正如您所说,在一般情况下,只找到给定政策的价值函数并非常有用,其目标是找到最优政策。但是,SARSAQ-learning等几种经典算法可以视为generalized policy iteration的特例,其中最困难的部分是找到策略的值函数。一旦知道了值函数,就很容易找到更好的策略,然后再次找到最近计算的策略的值函数,依此类推。在某些条件下,这一过程会收敛到最优政策。

总之,temporal difference learning是其他算法中的关键步骤,可以找到最优政策。