约42万个时间步长后,座席学习时间表不稳定

时间:2018-07-27 19:02:42

标签: reinforcement-learning openai-gym

我正在使用OpenAI's baselines训练代理。 我正在使用PPO算法(更具体地说是PPO2)。 在〜420k的时间步长之后,学习曲线急剧下降: rewards through time 有谁知道是什么原因导致了这种行为?

0 个答案:

没有答案