reinforcement-learning - 如何在深度强化学习中管理长期发作？

我想知道如何解决长期训练“深度强化学习”的问题吗？

我需要处理一个以100000步为单位的时间序列的问题才能实现一个情节。如果我的经纪人表现不佳，我认为比赛结束了，他将从头开始。

在DRL中，我使用随时间而减少的epsilon贪婪。自然而然地，时间越多，我探索的可能性就越小（再加上由于最初的错误决定，代理商常常必须从头开始）。但是，例如在某个时刻（1000个时间步长），我需要大量时间再次进行探索，因为我的状态已经发生了巨大变化。

我的epsilon贪婪策略不适用于这种问题，我想我需要的探索率不是随时间t索引的，而更多的是基于状态表示（是否为新状态）的。

您如何看待？您对这种方法有任何建议或研究论文吗？

最佳，