在强化学习中实施损失函数(MSVE)

时间:2017-10-11 10:10:54

标签: reinforcement-learning pytorch loss-function temporal-difference othello

我正在尝试为奥赛罗建立一个时间差异学习代理。虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在Sutton的书“强化学习:简介”中,均值平方值误差(MSVE表示为标准损失函数。它基本上是均方误差乘以on政策分布。(所有状态的总和)(onPolicyDistribution(s) * * [V(s) - V'(s,w)]²))

我现在的问题是:当我的政策是学习价值函数的e-greedy函数时,如何在政策分配中获得此信息?如果我只使用MSELoss,它甚至是必要的,还有什么问题?

我在pytorch中实现了所有这些,所以在那里轻松实现奖励积分:)

0 个答案:

没有答案