在观看David Silver在youtube上的强化学习课程(和幻灯片:Lecture 2 MDP)时,我发现“奖励”和“价值功能”确实令人困惑。
我试图理解幻灯片(P11)上标记的“给予的奖励”,但我不知道为什么会这样。就像“ Class 1:R = -2”,但“ Pub:R = +1”
为什么对Class给予负面奖励而对Pub给予正面奖励?为什么不同的值?
如何使用折扣系数计算奖励? (P17和P18)
我认为强化学习缺乏直觉是我遇到这种问题的主要原因...
所以,如果有人可以给我一点提示,我将非常感激。
答案 0 :(得分:1)
问题1)首先,您不应忘记环境带来的回报。主体采取的行动不会对环境的回报产生影响,但当然会影响所遵循的轨迹所带来的回报。
在示例中,这些+1和-2只是有趣的示例:)“作为一名学生”,您在上课时会感到无聊,所以当您在酒吧里玩耍时,它的奖励是-2,所以奖励是+1。不要对这些数字背后的原因感到困惑,它们是环境给出的。
问题2)让我们为“示例:学生MRP(2)的状态值函数”中的值为4.1的状态进行计算:
v(s)=(-2)+ 0.9 * [(0.4 * 1.9)+(0.6 * 10)] =(-2)+ 6.084 =〜4.1
David在这里使用贝尔曼方程式制造MRP 。您可以在同一张幻灯片上找到它。
答案 1 :(得分:0)
通常,您会设置奖励和折扣,以便使用RL可以驱使代理解决任务。 在学生示例中,目标是通过考试。学生可以花时间上课,睡觉,在Facebook上或在酒吧里。上课有点“无聊”,所以学生看不到这样做的直接好处。因此,负面奖励。相反,去酒吧很有趣,并且会得到积极的回报。但是,只有参加全部3个课程,学生才能通过考试并获得丰厚的最终奖励。 现在的问题是:学生对即时奖励和未来奖励的重视程度是多少?折扣系数告诉您:较小的折扣会给即时奖励带来更多的重要性,因为从长远来看,未来的奖励只会“消失”。如果我们使用小打折,学生可能更喜欢总是去酒吧或睡觉。在折扣接近于0的情况下,一步之后所有的奖励也已经接近于0,因此在每个州,学生都将尝试使立即奖励最大化,因为在那之后“什么都不重要”。
相反,高折扣(最多1分)更有价值长期奖励:在这种情况下,最佳学生将参加所有课程并通过考试。
选择折扣可能很棘手,尤其是在没有终端状态(在这种情况下为“ sleep”为终端)的情况下,因为折扣为1时,座席可能会忽略用于获得最高奖励的步骤数。例如,如果班级给出的奖励是-1而不是-2,因为代理将花费相同的时间永远在“班级”和“酒吧”之间交替,并在某个时候通过考试,因为折扣为1奖励永远不会消失,因此即使十年后,学生通过考试仍将获得+10的奖励。
还要考虑虚拟代理必须达到目标位置的情况。有了折扣1,代理商将不会学会以最少的步骤达到目标:只要达到目标,对他来说都是相同的。
此外,折扣1还存在一个数值问题。由于目标是使折扣奖励的累积总和最大化,因此,如果不对奖励进行折扣(并且视域是无限的),则总和将不会收敛。
>