如何针对经典控制问题实施近邻策略优化(PPO)算法?

时间:2019-05-01 22:51:51

标签: python keras reinforcement-learning

我正在尝试对经典控制任务实施削波PPO算法,例如将室温,电池电量等保持在一定范围内。到目前为止,我仅看到了游戏环境中的实现。我的问题是,在裁剪PPO算法的实现上,游戏环境和经典控制问题有所不同吗?如果是这样,我们将感谢您的帮助以及有关如何为我的案例实现该算法的提示。

1 个答案:

答案 0 :(得分:2)

我是从一般的RL角度回答您的问题,我认为特定的算法(PPO)在这个问题上没有任何区别。

我认为没有根本的区别,两者都可以看作是离散的控制问题。在游戏中,您观察状态,然后选择一个动作并据此采取行动,并获得对后续状态的观察奖励。

现在,如果您遇到一个简单的控制问题,而不是一个游戏,那么您可能会有一个模拟(或只是一个非常简单的动态模型)来描述问题的行为。例如,倒立摆的运动方程(另一个经典的控制问题)。在某些情况下,您可能会直接与真实系统互动,而不是与之互动,但这很少见,因为它可能真的很慢,并且RL算法的典型样本复杂性使在真实(物理)系统上的学习变得不那么实际。 / p>

从本质上讲,您与问题的模型互动的方式与游戏相同:观察状态,采取行动,然后观察下一个状态。唯一的区别是,尽管在游戏中奖励通常是预先定义的(某些得分或目标状态),但可能您需要为问题定义奖励功能。但同样,在许多情况下,您还需要定义游戏的奖励,因此这也不是主要区别。