reinforcement-learning - 车杆问题强化学习奖励

您现在缺少的信息是 time taken to reach that reward。

在RL算法执行更新时，控制器将通常使用的折扣奖励，其中-1奖励发生这种情况更早比-1奖励后来发生较不优选的。

例如，如果杆子稍微偏左；通过将杆一直向左移动，我们将比将杆一直向右移动更快地收到 -1。因此，当杆子在左侧时，将其移到右侧更好。当杆子向右时，向左移动会更好。从而在中心周围平衡杆。

在的奖励是如何打折方面，我们通常使用0和1之间的折扣因子参数乘以每时间步骤的奖励。例如，如果通过选择左侧动作，我们在 1 个时间步内获得 -1 奖励，而右侧动作将在 2 个时间步内给我们 -1 奖励，那么 预期折扣奖励（折扣系数为 0.99）对于左侧 (0.99*-1) 将是 -0.99，对于右侧 (0.99*0.99*-1) 将是 -0.9801，因此选择右侧会变得更好。

另外，仅供参考 - https://stats.stackexchange.com 是提出 RL 问题的更好地方，因为问题实际上与编码无关。

车杆问题强化学习奖励

1 个答案: