标签: machine-learning pytorch reinforcement-learning
我正在训练PPO算法,以了解自定义环境中的某些行为。问题是,我的模型的收敛性变化很大。在某些运行中,它将开始学习,平均奖励将随着时间的流逝而缓慢增加,而在其他运行中,平均奖励将开始变得越来越负。我在pytorch中使用三层完全连接的模型。是否有任何一般建议可帮助解决此问题?我在一开始使用xavier随机初始化。