应用错误收集

David Silver Lecture 2中的奖励感到困惑

时间：2019-05-30 19:05:53

标签： reinforcement-learning

在观看David Silver在youtube上的强化学习课程（和幻灯片：Lecture 2 MDP）时，我发现“奖励”和“价值功能”确实令人困惑。

我试图理解幻灯片（P11）上标记的“给予的奖励”，但我不知道为什么会这样。就像“ Class 1：R = -2”，但“ Pub：R = +1”

为什么对Class给予负面奖励而对Pub给予正面奖励？为什么不同的值？
如何使用折扣系数计算奖励？（P17和P18）

我认为强化学习缺乏直觉是我遇到这种问题的主要原因...

所以，如果有人可以给我一点提示，我将非常感激。

2 个答案:

答案 0 :(得分：1)

问题1）首先，您不应忘记环境带来的回报。主体采取的行动不会对环境的回报产生影响，但当然会影响所遵循的轨迹所带来的回报。

在示例中，这些+1和-2只是有趣的示例：）“作为一名学生”，您在上课时会感到无聊，所以当您在酒吧里玩耍时，它的奖励是-2，所以奖励是+1。不要对这些数字背后的原因感到困惑，它们是环境给出的。

问题2）让我们为“示例：学生MRP（2）的状态值函数”中的值为4.1的状态进行计算：

v（s）=（-2）+ 0.9 * [（0.4 * 1.9）+（0.6 * 10）] =（-2）+ 6.084 =〜4.1

David在这里使用贝尔曼方程式制造MRP 。您可以在同一张幻灯片上找到它。

答案 1 :(得分：0)

通常，您会设置奖励和折扣，以便使用RL可以驱使代理解决任务。在学生示例中，目标是通过考试。学生可以花时间上课，睡觉，在Facebook上或在酒吧里。上课有点“无聊”，所以学生看不到这样做的直接好处。因此，负面奖励。相反，去酒吧很有趣，并且会得到积极的回报。但是，只有参加全部3个课程，学生才能通过考试并获得丰厚的最终奖励。现在的问题是：学生对即时奖励和未来奖励的重视程度是多少？折扣系数告诉您：较小的折扣会给即时奖励带来更多的重要性，因为从长远来看，未来的奖励只会“消失”。如果我们使用小打折，学生可能更喜欢总是去酒吧或睡觉。在折扣接近于0的情况下，一步之后所有的奖励也已经接近于0，因此在每个州，学生都将尝试使立即奖励最大化，因为在那之后“什么都不重要”。

相反，高折扣（最多1分）更有价值长期奖励：在这种情况下，最佳学生将参加所有课程并通过考试。

选择折扣可能很棘手，尤其是在没有终端状态（在这种情况下为“ sleep”为终端）的情况下，因为折扣为1时，座席可能会忽略用于获得最高奖励的步骤数。例如，如果班级给出的奖励是-1而不是-2，因为代理将花费相同的时间永远在“班级”和“酒吧”之间交替，并在某个时候通过考试，因为折扣为1奖励永远不会消失，因此即使十年后，学生通过考试仍将获得+10的奖励。

还要考虑虚拟代理必须达到目标位置的情况。有了折扣1，代理商将不会学会以最少的步骤达到目标：只要达到目标，对他来说都是相同的。

此外，折扣1还存在一个数值问题。由于目标是使折扣奖励的累积总和最大化，因此，如果不对奖励进行折扣（并且视域是无限的），则总和将不会收敛。