使用DQN训练游戏的多个级别的规则是什么?

时间:2018-07-06 15:29:15

标签: deep-learning reinforcement-learning

我正在尝试为每个都有5个关卡的各种游戏创建基准。目的是先训练模型在3个层次上收敛,然后在其余2个层次上测量学习曲线。

是否有关于如何在多个级别上训练模型的一般规则?培训应该在另一个级别上进行吗?

非常感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

假设您总共可以训练N个级别(在您可能有时间限制的情况下)。

不推荐以下设置:

  1. 在第一级训练N / 3
  2. 在第二级训练N / 3
  3. 在第二级训练N / 3

采用这种设置的风险是,您首先要学会在第一级上发挥出色,然后忘记所学的一切并“过度适应”到第二级,然后再次忘记并过度适应到第三级。


您将要确保在整个培训过程中始终保持良好的水平组合,因为最终目标是在(看不见的)4级和5级进行概括并表现良好。

为此,我建议以下设置之一:

  1. 在第一级训练一次
  2. 在第二级训练一次
  3. 在第三级训练一次
  4. 从第一步开始重复,直到您已训练了最多N

或者:

  1. 随机选择要训练的前三个级别之一。
  2. 重复训练直到N次。

使用更复杂的策略可能会做得更好。例如,您可以尝试跟踪过去X次玩过的每个级别的平均表现,并为表现不佳的级别设置优先级(因为显然您仍然需要学习很多东西在那些)。例如,可以使用UCB1之类的多武装强盗策略来完成此任务,在该策略中,您将近期的负面表现用作“奖励”。

也许值得研究一般视频游戏AI竞赛(http://gvgai.net/)的学习轨迹。我相信比赛恰好是您提到的设置,包括三个训练级别和每个游戏两个级别进行评估(也许这甚至是您的问题来自何处?)。您可以查看如果有可用的源代码,该竞赛的各个参与者在做什么,和/或查找有关竞赛/竞赛条目的文献。