reinforcement-learning - 在强化学习中实施损失函数（MSVE）

我正在尝试为奥赛罗建立一个时间差异学习代理。虽然我的其他实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。在Sutton的书“强化学习：简介”中，均值平方值误差（MSVE表示为标准损失函数。它基本上是均方误差乘以on政策分布。（所有状态的总和）（onPolicyDistribution（s） * * [V（s） - V'（s，w）]²））

我现在的问题是：当我的政策是学习价值函数的e-greedy函数时，如何在政策分配中获得此信息？如果我只使用MSELoss，它甚至是必要的，还有什么问题？

我在pytorch中实现了所有这些，所以在那里轻松实现奖励积分：）

在强化学习中实施损失函数（MSVE）

0 个答案: