我见过这样的话:
策略定义学习代理在给定时间的行为方式。大致 说来,政策是从感知到的环境状态到在这些状态下要采取的行动的映射。
但仍然没有完全理解。强化学习的政策究竟是什么?
答案 0 :(得分:13)
这个定义是正确的,但如果你第一次看到这个定义就不会立即明显。让我这样说吧:政策是代理人的战略。
例如,想象一个机器人在房间内移动的世界,任务是到达目标点(x,y),在那里获得奖励。这里:
策略是代理为完成此任务所做的工作:
显然,有些策略比其他策略更好,有多种方法可以评估它们,即状态值函数和动作值函数。 RL的目标是学习最好的政策。现在定义应该更有意义(请注意,在上下文中时间更好地理解为状态):
策略定义学习代理在给定时间的行为方式。
更正式地说,我们首先应将马尔可夫决策过程(MDP)定义为元组(S
,A
,P
,R
,y
),其中:
S
是一组有限的状态A
是一组有限的行动P
是状态转移概率矩阵(在每个当前状态和每个动作的状态下结束的概率)R
是奖励函数,给定状态和动作y
是折扣系数,介于0和1之间然后,策略π
是给定状态的动作的概率分布。当代理处于特定状态时,这是每次操作的可能性(当然,我在这里跳过很多细节)。该定义对应于定义的第二部分。
我强烈建议在YouTube上提供David Silver's RL course。前两个讲座特别关注MDP和政策。
答案 1 :(得分:5)
简单来说,在最简单的情况下,策略π
是一个函数,它将状态s
作为输入并返回一个动作a
。那就是:π(s) → a
通过这种方式,代理通常使用该策略来决定在a
处于某个状态s
时应执行的a
操作。
有时,政策可以是随机而不是确定性。在这种情况下,策略不会返回唯一操作{{1}},而是返回一组操作的概率分布。
一般而言,任何RL算法的目标都是学习实现特定目标的最优策略。
答案 2 :(得分:5)
这是一个简洁的答案:政策是“思考”。代理人它是您处于某个州s
时的映射,代理现在应采取哪种行动a
?您可以将策略视为查找表:
state----action----probability/'goodness' of taking the action
1 1 0.6
1 2 0.4
2 1 0.3
2 2 0.7
如果您处于州1,您(假设贪婪策略)选择行动1.如果您处于州2,则选择行动2.