应用错误收集

如何利用强化学习中学到的政策

时间：2018-05-11 17:10:11

标签： machine-learning reinforcement-learning

我想交叉检查我对强化学习的理解。培训策略然后在以后重用学习的策略是多么容易/困难或共同？到目前为止我所理解的是，当我们停止培训并且如果我们再次开始时，它需要从头开始，即无法从学到的政策中受益。谢谢。

1 个答案:

答案 0 :(得分：2)

这取决于您使用的具体方法，但通常，一旦学习方法收敛，就不需要“训练”。例如，在Q学习的情况下，这是一种无模型的非策略学习方法，在算法收敛之前，代理仍然必须采取随机动作来确保 Q中的每个相关点（s，a ）空间已被探索。但是每个单独的步骤都利用了从先前剧集中获得的经验，所以说你从头开始每一集都是不正确的。

Q-Learning融合到最优策略
非政策性学习方法是否优于政策方法？
确定性政策梯度优于随机政策梯度的优势是什么？
策略迭代与值迭代
使用DQN时，在epsilon-greedy策略中退火epsilon
RL Policy Gradient：如何处理严格正面的奖励？
如何利用强化学习中学到的政策
针对策略梯度的ELI5评分功能和softmax策略
软角色批评算法如何处理策略梯度？
DDPG的时变策略

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？