强化学习,钟摆蟒蛇

时间:2017-02-14 11:05:46

标签: python reinforcement-learning

我无法为钟摆问题找到一个好的奖励功能,我使用的功能是:-x ** 2 + - 0.25 *(xdot ** 2) 这是从顶部开始的二次误差。 x表示摆锤的当前位置,xdot表示角速度。

使用此功能需要花费大量时间,有时无法正常工作。 任何人都有其他一些建议吗? 我一直在寻找谷歌,但没有找到任何可以使用的东西

1 个答案:

答案 0 :(得分:0)

this paper中,作者在倒立摆的模拟和真实版本中进行了不同的实验,具有以下奖励功能: enter image description here

这里,x是表示当前角度和角速度的状态向量,u是动作。

实验表明,使用以下算法可以很好地运行奖励功能:SARSA,LSPI,体验重播SARSA和体验重播Q学习。

然而,考虑到你的问题可能不(仅)与奖励函数有关,因为收敛的速度可能会受到许多因素的影响,正如@Matheus Portela在评论中所建议的那样。