我无法为钟摆问题找到一个好的奖励功能,我使用的功能是:-x ** 2 + - 0.25 *(xdot ** 2) 这是从顶部开始的二次误差。 x表示摆锤的当前位置,xdot表示角速度。
使用此功能需要花费大量时间,有时无法正常工作。 任何人都有其他一些建议吗? 我一直在寻找谷歌,但没有找到任何可以使用的东西
答案 0 :(得分:0)
在this paper中,作者在倒立摆的模拟和真实版本中进行了不同的实验,具有以下奖励功能:
这里,x
是表示当前角度和角速度的状态向量,u
是动作。
实验表明,使用以下算法可以很好地运行奖励功能:SARSA,LSPI,体验重播SARSA和体验重播Q学习。
然而,考虑到你的问题可能不(仅)与奖励函数有关,因为收敛的速度可能会受到许多因素的影响,正如@Matheus Portela在评论中所建议的那样。