应用错误收集

时间：2014-04-15 08:50:58

标签： reinforcement-learning q-learning

我正在使用基于rlglue的python-rl框架进行q-learning。我的理解是，在剧集的数量上，算法会收敛到一个最优策略（这是一个映射，说明在什么状态下采取什么行动）。

问题1：这是否意味着在一些剧集（比如说1000或更多）之后，我应该基本上得到相同的状态：动作映射？

当我绘制奖励（或平均超过100集的奖励）时，我会在this link中得到类似于图6.13的图表。

问题2：如果算法已经收敛到一些政策，为什么奖励会下降？奖励有可能大幅变化吗？

问题3：是否有一些标准方法可用于比较各种RL算法的结果？

答案 0 :(得分：4)

Q1：它将收敛到单个映射，除非多个映射是最佳的。

Q2：Q-Learning有一个探索参数，用于确定随机，潜在次优移动的频率。只要此参数不为零，奖励就会波动。

问题3：奖励图表，与您提供的链接一样。检查http://rl-community.org。