标签: reinforcement-learning q-learning
我已经实现了q学习算法,其中代理试图尽可能地旅行。我也在使用即时奖励和最后一集奖励。当特工碰撞时,我会给予负面的高碰撞奖励,并且我不会停止该情节。这样行是可以的,还是一旦特工发生冲突就必须结束剧集?
答案 0 :(得分:0)
就我而言,我已定义了最低奖励阈值,如果该阈值低于该阈值,我将结束本集。
希望这会有所帮助