应用错误收集

时间：2017-02-14 11:05:46

标签： python reinforcement-learning

我无法为钟摆问题找到一个好的奖励功能，我使用的功能是：-x ** 2 + - 0.25 *（xdot ** 2）这是从顶部开始的二次误差。 x表示摆锤的当前位置，xdot表示角速度。

使用此功能需要花费大量时间，有时无法正常工作。任何人都有其他一些建议吗？我一直在寻找谷歌，但没有找到任何可以使用的东西

答案 0 :(得分：0)

在this paper中，作者在倒立摆的模拟和真实版本中进行了不同的实验，具有以下奖励功能：

这里，x是表示当前角度和角速度的状态向量，u是动作。

实验表明，使用以下算法可以很好地运行奖励功能：SARSA，LSPI，体验重播SARSA和体验重播Q学习。

然而，考虑到你的问题可能不（仅）与奖励函数有关，因为收敛的速度可能会受到许多因素的影响，正如@Matheus Portela在评论中所建议的那样。