应用错误收集

强化学习的最优性是什么？

时间：2019-06-11 02:00:08

标签： machine-learning deep-learning reinforcement-learning

我知道定义：- 所有（pi）的最优策略（pi）*满足（pi）*> =（pi）最优策略可以保证存在，但可能不是唯一的。这两行是什么意思？

1 个答案:

答案 0 :(得分：1)

请考虑一个目标是在视频游戏中获得分数的代理商。在此，随着代理商学习玩游戏，我们会为其策略分配分数（例如游戏分数）。最佳策略将是得分最高的策略。例如，可能有几种方法可以收集游戏中的所有得分，所有这些都是最佳策略。

此外，正如我刚才提到的，这些政策并不是唯一的，在某些情况下可能会有无限的方法来最大化得分。

希望有帮助。