如何处理A2C中Atari Breakout的奖励?

时间:2021-07-07 03:32:25

标签: reinforcement-learning breakout

Breakout 的单个动作的奖励从 0 到超过 200 不等。在 A2C 中,它使价值损失(MSE(value_predicted, reward_return))非常不可预测,很容易支配整体_loss。

在baselines3 和github 中的许多存储库中,奖励已被限制在[0, 1] 之间。并且智能体已经学会了相当聪明的策略(例如 push ball to tunnel in upper left corner 中的 this blog)。由于清除一个块或清除一行块的奖励相同,并且更多的步骤意味着更多的奖励,代理如何学习这种类型的策略?

你能帮忙吗?非常感谢。

0 个答案:

没有答案