我正在使用基于rlglue的python-rl框架进行q-learning。 我的理解是,在剧集的数量上,算法会收敛到一个最优策略(这是一个映射,说明在什么状态下采取什么行动)。
问题1:这是否意味着在一些剧集(比如说1000或更多)之后,我应该基本上得到相同的状态:动作映射?
当我绘制奖励(或平均超过100集的奖励)时,我会在this link中得到类似于图6.13的图表。
问题2:如果算法已经收敛到一些政策,为什么奖励会下降?奖励有可能大幅变化吗? 问题3:是否有一些标准方法可用于比较各种RL算法的结果?答案 0 :(得分:4)
Q1:它将收敛到单个映射,除非多个映射是最佳的。
Q2:Q-Learning有一个探索参数,用于确定随机,潜在次优移动的频率。只要此参数不为零,奖励就会波动。
问题3:奖励图表,与您提供的链接一样。检查http://rl-community.org。