应用错误收集

不需要终端状态，但它很有用，不仅仅用于惩罚。

以Pong为例，只要玩家得分或承认，就会触发终端状态。这是惩罚中立。这里的终端状态点是因为在评分后重置游戏状态，球和球杆被移回到起始位置。这意味着先前状态（终端1）和下一个状态之间没有连接。在计算任何无终端状态的奖励时，我们使用该状态下的奖励加上Q函数预期的未来奖励。在终端状态下，没有未来奖励，因此您可以使用当前状态的奖励。

这样做的好处是可以在学习时大幅降低噪音。正如我所说，你不需要一个终端状态，但是如果你没有终结状态，你可能想要将你未来的奖励折扣调低到比标准0.99低很多，因为在这个级别，大多数奖励最终会融合在一起时间。

希望这有帮助。

每个深q网都需要终端状态吗？

1 个答案: