强化学习的最优性是什么?

时间:2019-06-11 02:00:08

标签: machine-learning deep-learning reinforcement-learning

我知道定义:- 所有(pi)的最优策略(pi)*满足(pi)*> =(pi) 最优策略可以保证存在,但可能不是唯一的。 这两行是什么意思?

1 个答案:

答案 0 :(得分:1)

请考虑一个目标是在视频游戏中获得分数的代理商。在此,随着代理商学习玩游戏,我们会为其策略分配分数(例如游戏分数)。最佳策略将是得分最高的策略。例如,可能有几种方法可以收集游戏中的所有得分,所有这些都是最佳策略。

此外,正如我刚才提到的,这些政策并不是唯一的,在某些情况下可能会有无限的方法来最大化得分。

希望有帮助。