车杆问题强化学习奖励

时间:2021-04-06 22:59:05

标签: reinforcement-learning

对于推车杆平衡问题,我想知道为什么有如此多的强化学习实现来解决控制器的奖励函数,每次杆倒下时奖励 -1,而杆的每个时间步长奖励 0保持直立。

如果跌倒立即产生与平衡一分钟后跌倒相同的奖励,这将如何训练系统?

1 个答案:

答案 0 :(得分:0)

您现在缺少的信息是 time taken to reach that reward

在RL算法执行更新时,控制器将通常使用的折扣奖励,其中-1奖励发生这种情况更早比-1奖励后来发生较不优选的。

例如,如果杆子稍微偏左;通过将杆一直向左移动,我们将比将杆一直向右移动更快地收到 -1。因此,当杆子在左侧时,将其移到右侧更好。当杆子向右时,向左移动会更好。从而在中心周围平衡杆。

在的奖励是如何打折方面,我们通常使用0和1之间的折扣因子参数乘以每时间步骤的奖励。例如,如果通过选择左侧动作,我们在 1 个时间步内获得 -1 奖励,而右侧动作将在 2 个时间步内给我们 -1 奖励,那么 预期折扣奖励(折扣系数为 0.99)对于左侧 (0.99*-1) 将是 -0.99,对于右侧 (0.99*0.99*-1) 将是 -0.9801,因此选择右侧会变得更好。

另外,仅供参考 - https://stats.stackexchange.com 是提出 RL 问题的更好地方,因为问题实际上与编码无关。