应用错误收集

PPO有时仅收敛，这取决于初始化。建议保持一致？

时间：2019-07-18 17:52:05

标签： machine-learning pytorch reinforcement-learning

我正在训练PPO算法，以了解自定义环境中的某些行为。问题是，我的模型的收敛性变化很大。在某些运行中，它将开始学习，平均奖励将随着时间的流逝而缓慢增加，而在其他运行中，平均奖励将开始变得越来越负。我在pytorch中使用三层完全连接的模型。是否有任何一般建议可帮助解决此问题？我在一开始使用xavier随机初始化。

0 个答案:

没有答案

Scipy的fmin有时仅在inf上粘贴
使用MATLAB的“decic”函数实现一致初始条件的收敛失败
TCP仅使用多播进行初始化
仅为依赖应用添加要求
领域有时会在初始化时崩溃
游戏有时只会检查获胜者
有关获得5'11“一致认可为@ sys.unit-length的任何建议吗？
.isHittable有时是假的，取决于我使用哪台机器
MCMC链收敛，但是对数后验拓扑不适合收敛
PPO有时仅收敛，这取决于初始化。建议保持一致？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？