我正在尝试为每个都有5个关卡的各种游戏创建基准。目的是先训练模型在3个层次上收敛,然后在其余2个层次上测量学习曲线。
是否有关于如何在多个级别上训练模型的一般规则?培训应该在另一个级别上进行吗?
非常感谢您的帮助。
答案 0 :(得分:0)
假设您总共可以训练N
个级别(在您可能有时间限制的情况下)。
我不推荐以下设置:
N / 3
次N / 3
次N / 3
次采用这种设置的风险是,您首先要学会在第一级上发挥出色,然后忘记所学的一切并“过度适应”到第二级,然后再次忘记并过度适应到第三级。
您将要确保在整个培训过程中始终保持良好的水平组合,因为最终目标是在(看不见的)4级和5级进行概括并表现良好。
为此,我建议以下设置之一:
N
次或者:
N
次。使用更复杂的策略可能会做得更好。例如,您可以尝试跟踪过去X
次玩过的每个级别的平均表现,并为表现不佳的级别设置优先级(因为显然您仍然需要学习很多东西在那些)。例如,可以使用UCB1之类的多武装强盗策略来完成此任务,在该策略中,您将近期的负面表现用作“奖励”。
也许值得研究一般视频游戏AI竞赛(http://gvgai.net/)的学习轨迹。我相信比赛恰好是您提到的设置,包括三个训练级别和每个游戏两个级别进行评估(也许这甚至是您的问题来自何处?)。您可以查看如果有可用的源代码,该竞赛的各个参与者在做什么,和/或查找有关竞赛/竞赛条目的文献。