我想知道如何解决长期训练“深度强化学习”的问题吗?
我需要处理一个以100000步为单位的时间序列的问题才能实现一个情节。如果我的经纪人表现不佳,我认为比赛结束了,他将从头开始。
在DRL中,我使用随时间而减少的epsilon贪婪。自然而然地,时间越多,我探索的可能性就越小(再加上由于最初的错误决定,代理商常常必须从头开始)。但是,例如在某个时刻(1000个时间步长),我需要大量时间再次进行探索,因为我的状态已经发生了巨大变化。
我的epsilon贪婪策略不适用于这种问题,我想我需要的探索率不是随时间t索引的,而更多的是基于状态表示(是否为新状态)的。
您如何看待?您对这种方法有任何建议或研究论文吗?
最佳,
答案 0 :(得分:0)
10万步在RL中非常少见。 Mujoco tasks默认为1k,而Atari games默认为10k,因此这可能是一个很好的起点。特别是蒙特祖玛的《复仇》非常具有挑战性,因为玩家很容易死亡并且探索时间不足以解决它。 Here是包含相关代码的论文的集合。