应用错误收集

强化学习的顺序决策中的平稳概念

时间：2018-08-01 06:48:23

标签： machine-learning artificial-intelligence reinforcement-learning

下面是“人工智能”一书中的顺序决策问题的文本片段，这是Stuart Russel和Peter Norvig提出的一种现代方法。 Chater 17第17.1节

偏好的平稳性意味着：

如果两个状态序列[s0，s1，s2，... 。。]和[s0'，s1'，s2'，。。。]   以相同的状态（即s0 = s01）开始，然后是两个序列   应该以与序列[s1，s2，...相同的方式进行优先排序。   。。]和[s1'，s2'、. 。。]。

用英语，这意味着如果您更喜欢一个未来而不是另一个   从明天开始，那么如果将来   从今天开始。

我很难理解最后的陈述。

用英语来说，这意味着，如果您更喜欢一个未来而不是明天开始的另一个未来，那么您仍然应该更喜欢那个将来从今天开始的未来。

请eloboarte解释一下。

1 个答案:

答案 0 :(得分：0)

Wikipedia中关于平稳性的另一种定义，可能有助于理解这一思想：

在数学和统计学中，平稳过程是随机过程，其随时间变化的无条件联合概率分布不会改变。

关键概念是，时间偏移不会改变。因此，应用于首选项的情况下，首选项应该相同，而与创建时间无关。也就是说，如果您处于第2天（明天）或第1天（今天），则对第3天的偏好应该相同。