强化学习的顺序决策中的平稳概念

时间:2018-08-01 06:48:23

标签: machine-learning artificial-intelligence reinforcement-learning

下面是“人工智能”一书中的顺序决策问题的文本片段,这是Stuart Russel和Peter Norvig提出的一种现代方法。 Chater 17第17.1节

  

偏好的平稳性意味着:

     

如果两个状态序列[s0,s1,s2,... 。 。]和[s0',s1',s2',。 。 。]   以相同的状态(即s0 = s01)开始,然后是两个序列   应该以与序列[s1,s2,...相同的方式进行优先排序。   。 。]和[s1',s2'、. 。 。]。

     

用英语,这意味着如果您更喜欢一个未来而不是另一个   从明天开始,那么如果将来   从今天开始。

我很难理解最后的陈述。

用英语来说,这意味着,如果您更喜欢一个未来而不是明天开始的另一个未来,那么您仍然应该更喜欢那个将来从今天开始的未来。

请eloboarte解释一下。

1 个答案:

答案 0 :(得分:0)

Wikipedia中关于平稳性的另一种定义,可能有助于理解这一思想:

  

在数学和统计学中,平稳过程是随机过程,其随时间变化的无条件联合概率分布不会改变。

关键概念是,时间偏移不会改变。因此,应用于首选项的情况下,首选项应该相同,而与创建时间无关。也就是说,如果您处于第2天(明天)或第1天(今天),则对第3天的偏好应该相同。