我有一个与强化学习有关的问题,为什么环境状态马尔科夫?我按照定义在某处阅读,但我无法理解环境状态的定义如何暗示马尔科夫。
答案 0 :(得分:3)
不一定,但一般来说,强化学习算法假设您提供马尔可夫状态。
从强化学习:简介的第3.5章开始:
理想情况下,我们想要的是一种状态信号,它可以紧凑地总结过去的感觉,同时保留所有相关信息。这通常需要的不仅仅是直接的感觉,而是永远不会超过所有过去感觉的完整历史。成功保留所有相关信息的状态信号被称为马尔可夫,或者具有马尔可夫属性(我们在下面正式定义)。
当然,您不可能提供完美的马尔可夫状态表示并实际学习。
Markov属性在强化学习中很重要,因为假定决策和值只是当前状态的函数。为了使这些有效和提供信息,国家代表必须提供信息。这意味着并非所有理论都严格适用于马尔可夫财产不严格适用的情况。然而,为马尔可夫案例开发的理论仍然有助于我们理解算法的行为,并且算法可以成功地应用于具有非严格马尔科夫的状态的许多任务。