在强化学习中发生冲突时是否需要结束剧集

时间:2019-04-19 16:58:05

标签: reinforcement-learning q-learning

我已经实现了q学习算法,其中代理试图尽可能地旅行。我也在使用即时奖励和最后一集奖励。当特工碰撞时,我会给予负面的高碰撞奖励,并且我不会停止该情节。这样行是可以的,还是一旦特工发生冲突就必须结束剧集?

1 个答案:

答案 0 :(得分:0)

就我而言,我已定义了最低奖励阈值,如果该阈值低于该阈值,我将结束本集。

  • 案例1:以无效动作结束剧集 如果您在处罚无效举动之前结束游戏,则网络将无法理解该举动是无效的。
  • 案例2:在N次无效操作后结束插曲 这使它有空间在情节结束之前采取一些无效的措施。类似于玩游戏:您有N条生命可以超越关卡,或者您输掉了游戏
  • 情况3:无效操作后根本没有结束游戏 这可能会导致代理在环境中迷路,有时只执行无效的操作,您需要一个良好的终止条件来停止剧集

希望这会有所帮助