据我所知,对于特定政策\ pi,时间差异学习让我们计算遵循该政策\ pi的预期价值,但了解具体政策的含义是什么?
我们不应该尝试为特定环境寻找最优政策吗?使用时差学习做特定的\ pi有什么意义?
答案 0 :(得分:1)
正如您所说,在一般情况下,只找到给定政策的价值函数并非常有用,其目标是找到最优政策。但是,SARSA
或Q-learning
等几种经典算法可以视为generalized policy iteration
的特例,其中最困难的部分是找到策略的值函数。一旦知道了值函数,就很容易找到更好的策略,然后再次找到最近计算的策略的值函数,依此类推。在某些条件下,这一过程会收敛到最优政策。
总之,temporal difference learning
是其他算法中的关键步骤,可以找到最优政策。