在强化学习中将离散动作转换为连续动作

时间:2018-10-16 14:59:44

标签: machine-learning reinforcement-learning

在强化学习中,我们凭经验知道使用离散动作比使用连续动作更容易训练。

但是从理论上讲,连续动作更准确,更快捷,就像人类一样,我们的大多数动作都是连续的。

那么有没有方法或相关研究训练离散操作策略以使其更容易启动,然后将该策略转换为输出连续操作以提高精度呢?

谢谢。

1 个答案:

答案 0 :(得分:0)

您当然可以这样做,任何使用强化学习进行连续控制的论文都可以做到这一点。唯一没有这样做的是使用 deep 强化学习或带有函数逼近的强化学习的研究人员。我的研究将强化学习和深度强化学习应用于动力系统。我将状态和操作空间离散化为足够的分辨率,然后将其应用于控制问题。

我目前正在研究使离散化系统适用于连续空间的一些方法。一种方法是使用线性插值。如果您的状态介于2个离散点之间,则可以使用线性插值来识别最佳动作(在连续空间中)。由于控制定律是线性的,因此它对于线性系统特别有效:

u = Kx

这种方法正好符合您的要求:在离散空间上进行训练,然后将其应用于连续控制问题。

但是,传统上,使用线性函数逼近(例如图块编码)或非线性函数逼近(例如人工神经网络)来解决连续控制问题。这些方法比较高级,我建议先尝试使用更多基本的离散RL方法。我可以使用Github上的RL代码,如果您有任何问题,请告诉我。