深度确定性政策梯度(DDPG)是动作空间连续时强化学习的最先进方法。其核心算法是Deterministic Policy Gradient。
然而,在阅读了论文并听取了演讲(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)之后,我仍然无法弄清楚确定性PG相对于随机PG的基本优势是什么。谈话说它更适合高维动作并且更容易训练,但为什么会这样?
答案 0 :(得分:2)
政策梯度法的主要原因是解决连续动作空间问题,由于全局Q最大化,Q学习难以实现。
SPG可以解决连续动作空间问题,因为它通过连续概率分布来表示策略。由于SPG将其政策视为一种分配,因此需要采取积分而不是行动来获得整体奖励的梯度。 SPG采用重要性抽样来进行这种整合。
DPG通过从州到行动的确定性映射来表示政策。它可以做到这一点,因为它没有采取全局最大Q的行动,但它根据确定性映射(如果在策略上)选择行动,同时通过Q的梯度(开启和关闭策略)移动该确定性映射。然后,总体奖励的梯度具有不需要积分超过动作的形式,并且更容易计算。
可以说,这似乎是从随机政策向确定性政策转变的一步。但是随机政策首先被引入来处理连续的行动空间。确定性政策现在提供了另一种处理连续行动空间的方法。
我的观察来自这些论文:
确定性政策梯度算法
具有函数逼近的强化学习的政策梯度方法
深度强化学习的持续控制
答案 1 :(得分:0)
因为策略是确定性的而不是随机的,这意味着每个州只会选择一个动作。