应用错误收集

在强化学习中绘制奖励曲线

时间：2018-11-13 05:05:55

标签： reinforcement-learning

我想知道如何在强化学习中绘制奖励曲线。

尤其是，我的模拟环境具有很大的随机性。因此，即使输出策略已收敛，奖励的原始数据中还是有许多曲折模式。

在这种情况下有什么方法可以绘制吗？

1 个答案:

答案 0 :(得分：-1)

恐怕我没听懂你的问题。为什么不只绘制每个情节中获得的奖励呢？如果政策收敛，过一会儿您应该会看到奖励的增加，即使可能会开始出现这些曲折。