标签: reinforcement-learning openai-gym
我正在使用OpenAI's baselines训练代理。 我正在使用PPO算法(更具体地说是PPO2)。 在〜420k的时间步长之后,学习曲线急剧下降: 有谁知道是什么原因导致了这种行为?