应用错误收集

约42万个时间步长后，座席学习时间表不稳定

时间：2018-07-27 19:02:42

标签： reinforcement-learning openai-gym

我正在使用OpenAI's baselines训练代理。我正在使用PPO算法（更具体地说是PPO2）。在〜420k的时间步长之后，学习曲线急剧下降：有谁知道是什么原因导致了这种行为？

0 个答案:

没有答案