强化学习的政策是什么?

时间:2017-09-17 04:52:39

标签: terminology reinforcement-learning

我见过这样的话:

  

策略定义学习代理在给定时间的行为方式。大致   说来,政策是从感知到的环境状态到在这些状态下要采取的行动的映射。

但仍然没有完全理解。强化学习的政策究竟是什么?

3 个答案:

答案 0 :(得分:13)

这个定义是正确的,但如果你第一次看到这个定义就不会立即明显。让我这样说吧:政策是代理人的战略

例如,想象一个机器人在房间内移动的世界,任务是到达目标点(x,y),在那里获得奖励。这里:

  • 房间是环境
  • 机器人的当前位置是
  • 策略是代理为完成此任务所做的工作:

    • 愚蠢的机器人随意乱走,直到他们意外地落到正确的位置(政策#1)
    • 其他人可能出于某种原因学习沿着大部分路线(政策#2)
    • 智能机器人在他们的“头部”计划路线并直接进入目标(政策#3)

显然,有些策略比其他策略更好,有多种方法可以评估它们,即状态值函数动作值函数。 RL的目标是学习最好的政策。现在定义应该更有意义(请注意,在上下文中时间更好地理解为状态):

策略定义学习代理在给定时间的行为方式。

形式上

更正式地说,我们首先应将马尔可夫决策过程(MDP)定义为元组(SAPRy),其中:

  • S是一组有限的状态
  • A是一组有限的行动
  • P是状态转移概率矩阵(在每个当前状态和每个动作的状态下结束的概率)
  • R是奖励函数,给定状态和动作
  • y是折扣系数,介于0和1之间

然后,策略π是给定状态的动作的概率分布。当代理处于特定状态时,这是每次操作的可能性(当然,我在这里跳过很多细节)。该定义对应于定义的第二部分。

我强烈建议在YouTube上提供David Silver's RL course。前两个讲座特别关注MDP和政策。

答案 1 :(得分:5)

简单来说,在最简单的情况下,策略π是一个函数,它将状态s作为输入并返回一个动作a。那就是:π(s) → a

通过这种方式,代理通常使用该策略来决定在a处于某个状态s时应执行的a操作。

有时,政策可以是随机而不是确定性。在这种情况下,策略不会返回唯一操作{{1}},而是返回一组操作的概率分布。

一般而言,任何RL算法的目标都是学习实现特定目标的最优策略。

答案 2 :(得分:5)

这是一个简洁的答案:政策是“思考”。代理人它是您处于某个州s时的映射,代理现在应采取哪种行动a?您可以将策略视为查找表:

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

如果您处于州1,您(假设贪婪策略)选择行动1.如果您处于州2,则选择行动2.