reinforcement-learning - 在强化学习中发生冲突时是否需要结束剧集

时间：2019-04-19 16:58:05

标签： reinforcement-learning q-learning

我已经实现了q学习算法，其中代理试图尽可能地旅行。我也在使用即时奖励和最后一集奖励。当特工碰撞时，我会给予负面的高碰撞奖励，并且我不会停止该情节。这样行是可以的，还是一旦特工发生冲突就必须结束剧集？

答案 0 :(得分：0)

就我而言，我已定义了最低奖励阈值，如果该阈值低于该阈值，我将结束本集。

希望这会有所帮助