应用错误收集

在强化学习中，最优政策和分段最优政策之间的区别是什么？

时间：2017-03-09 12:34:37

标签： machine-learning policy dynamic-controls reinforcement-learning control-theory

我们如何定义最优政策和明智的最优政策？

我想这取决于它是连续时间还是离散时间问题。对于离散时间，两者应该相同。我是对的吗？

1 个答案:

答案 0 :(得分：0)

我想自己添加答案。

分段最优策略将是我们贪婪地选择最佳动作（即仅针对下一瞬间最佳）的策略。然而，最佳的是我们在时间范围内选择策略的方式（如在情节MDP中）。时间范围的长短取决于应用。