reinforcement-learning - 如何处理A2C中Atari Breakout的奖励？

Breakout 的单个动作的奖励从 0 到超过 200 不等。在 A2C 中，它使价值损失（MSE(value_predicted, reward_return)）非常不可预测，很容易支配整体_loss。

在baselines3 和github 中的许多存储库中，奖励已被限制在[0, 1] 之间。并且智能体已经学会了相当聪明的策略（例如 push ball to tunnel in upper left corner 中的 this blog）。由于清除一个块或清除一行块的奖励相同，并且更多的步骤意味着更多的奖励，代理如何学习这种类型的策略？

你能帮忙吗？非常感谢。

如何处理A2C中Atari Breakout的奖励？

0 个答案: