问题
我的目标是应用强化学习来预测物体在3D环境中已知力下的下一个状态(该方法将简化为监督学习,离线学习)。
我的方法的详细信息
当前状态是代表物体在环境中的位置(3维)和物体的速度(3维)的向量。起始位置以及环境中的起始速度都是随机初始化的。
动作是向量,表示从状态 t 到状态 t + 1 的运动。
奖励只是预测的下一个状态与实际的下一个状态(我已经有目标位置)之间的欧几里得距离。
到目前为止我做了什么?
我一直在寻找许多方法来做到这一点。 深度确定性策略梯度适用于连续的操作空间,但就我而言,我还具有连续的状态空间。如果您对此方法感兴趣,请参考DeepMind撰写的原始文章: http://proceedings.mlr.press/v32/silver14.pdf
Actor-Critic 方法应该可行,但通常(或始终)应用于离散的低维状态空间。
Q-Learning 和 Deep-Q Learning 无法处理高维状态空间,因此即使离散化状态空间,我的配置也无法使用。
逆向强化学习(模仿学习的一个实例,具有行为克隆和直接策略学习)在找到奖励时会近似奖励功能功能比查找策略功能更为复杂。有趣的方法,但是我还没有看到任何实现,对于我来说,奖励功能非常简单。 是否有没有方法可以解决我的配置问题?
答案 0 :(得分:3)
在您的问题中,我相信可能会有很多困惑和误解。
首先,深度确定性策略梯度(DDPG)可以绝对处理连续的状态和动作。它之所以如此著名仅是因为它。而且,它是有史以来第一个 stable 架构。另外,您链接的纸张实际上是DPG,而不是DDPG。但是,DDPG和DPG都可以处理连续的状态和动作,但是后者更加不稳定。该论文实际上是由我在UofA的“高级”发表的。这是DDPG的链接:https://arxiv.org/pdf/1509.02971.pdf。
Actor-critic RL不是一种算法,而是一种RL算法家族,其中Actor将状态映射到动作,而评论家对反馈信号进行“预处理”,以便Actor可以更有效地学习它。 DDPG是演员评判机构的一个例子。在DDPG中,DQN用作批注者,以预处理对确定性策略梯度(参与者)的反馈信号。
回到原始问题。
我几乎可以保证您可以使用DDPG解决您的问题。实际上,DDPG仍然是可用于在连续状态,连续动作空间中控制代理的唯一算法之一。
可以执行此操作的另一种方法称为信任区域策略优化(TRPO)。它是由UC Bekelery团队(以及OpenAI?)开发的。 TRPO和DDPG的基本结构是相同的(都是演员评判的),但是培训是不同的。 DDPG使用目标网络方法来确保收敛和稳定性,而TRPO在网络更新上施加Kullerback-Leibler散度约束,以确保网络的每次更新都不会太大(即,在t时刻网络的最佳策略不会有太大差异)从t-1开始)。 TRPO非常难以编码,因此,OpenAI发表了另一篇名为《近端策略梯度》(PPO)的论文。此方法类似于TRPO,但易于实现。
长话短说,我建议您尝试DDPG,因为如果您的任务很简单,那么DDPG肯定可以工作。
答案 1 :(得分:0)
看起来像this可能是不错的论文。如果动作空间不离散化,那么很难从巨大的连续状态空间中指定或选择一个动作。当行动空间离散时,可能导致大量信息丢失。提出的算法从策略网络在离散空间中初始化的动作开始。然后使用连续空间中的上界(UCB)来探索和评估价值网络中的行为。
还有其他几篇论文可能值得一看,但以上论文是最新的。希望这会有所帮助。