每个深q网络都需要像atari游戏那样的终端状态吗?那么网络看到了结束?还是用来惩罚它?
感谢
答案 0 :(得分:0)
不需要终端状态,但它很有用,不仅仅用于惩罚。
以Pong为例,只要玩家得分或承认,就会触发终端状态。这是惩罚中立。这里的终端状态点是因为在评分后重置游戏状态,球和球杆被移回到起始位置。这意味着先前状态(终端1)和下一个状态之间没有连接。在计算任何无终端状态的奖励时,我们使用该状态下的奖励加上Q函数预期的未来奖励。在终端状态下,没有未来奖励,因此您可以使用当前状态的奖励。
这样做的好处是可以在学习时大幅降低噪音。正如我所说,你不需要一个终端状态,但是如果你没有终结状态,你可能想要将你未来的奖励折扣调低到比标准0.99低很多,因为在这个级别,大多数奖励最终会融合在一起时间。
希望这有帮助。