标签: machine-learning policy dynamic-controls reinforcement-learning control-theory
我们如何定义最优政策和明智的最优政策?
我想这取决于它是连续时间还是离散时间问题。对于离散时间,两者应该相同。我是对的吗?
答案 0 :(得分:0)
我想自己添加答案。
分段最优策略将是我们贪婪地选择最佳动作(即仅针对下一瞬间最佳)的策略。然而,最佳的是我们在时间范围内选择策略的方式(如在情节MDP中)。时间范围的长短取决于应用。