蒙特卡洛政策评估混乱

时间:2017-03-16 00:26:55

标签: montecarlo reinforcement-learning

我无法理解蒙特卡罗政策评估算法。我正在阅读的是G是第一次访问某个特定州后的平均回报,让我们说s1。这是否意味着将该状态s1之后的所有奖励平均到该集的结尾,然后将结果值分配给s1?或者它是否意味着在s1中多次剧集中采取行动所获得的即时奖励?

1 个答案:

答案 0 :(得分:1)

蒙特卡洛政策评估的目的是找到给定政策π的价值函数。政策的价值函数只是告诉我们因处于某个州而产生的预期累积折扣奖励,然后永远遵循该政策或直到该集的结束。它告诉我们一个州的预期回报

因此,估算这个价值函数的蒙特卡罗方法就是简单地运行政策并跟踪每个州的回报;当我第一次达到某个州时,我会在剩下的剧集中积累多少折扣奖励?您观察到的所有这些平均值(根据您运行的每一集,每次访问一个州的一次返回)。

  

这是否意味着将该状态s1之后的所有奖励平均到剧集的结尾,然后将结果值分配给s1?或者它是否意味着在s1中多次剧集中采取行动所获得的即时奖励?

所以,你的第一个想法是正确的。