应用错误收集

假设您总共可以训练N个级别（在您可能有时间限制的情况下）。

我不推荐以下设置：

采用这种设置的风险是，您首先要学会在第一级上发挥出色，然后忘记所学的一切并“过度适应”到第二级，然后再次忘记并过度适应到第三级。

您将要确保在整个培训过程中始终保持良好的水平组合，因为最终目标是在（看不见的）4级和5级进行概括并表现良好。

为此，我建议以下设置之一：

或者：

使用更复杂的策略可能会做得更好。例如，您可以尝试跟踪过去X次玩过的每个级别的平均表现，并为表现不佳的级别设置优先级（因为显然您仍然需要学习很多东西在那些）。例如，可以使用UCB1之类的多武装强盗策略来完成此任务，在该策略中，您将近期的负面表现用作“奖励”。

也许值得研究一般视频游戏AI竞赛（http://gvgai.net/）的学习轨迹。我相信比赛恰好是您提到的设置，包括三个训练级别和每个游戏两个级别进行评估（也许这甚至是您的问题来自何处？）。您可以查看如果有可用的源代码，该竞赛的各个参与者在做什么，和/或查找有关竞赛/竞赛条目的文献。