标签: machine-learning deep-learning reinforcement-learning
我知道定义:- 所有(pi)的最优策略(pi)*满足(pi)*> =(pi) 最优策略可以保证存在,但可能不是唯一的。 这两行是什么意思?
答案 0 :(得分:1)
请考虑一个目标是在视频游戏中获得分数的代理商。在此,随着代理商学习玩游戏,我们会为其策略分配分数(例如游戏分数)。最佳策略将是得分最高的策略。例如,可能有几种方法可以收集游戏中的所有得分,所有这些都是最佳策略。
此外,正如我刚才提到的,这些政策并不是唯一的,在某些情况下可能会有无限的方法来最大化得分。
希望有帮助。