在强化学习中,座席和环境都具有不同的状态还是只有一个状态?

时间:2020-02-17 06:51:32

标签: machine-learning reinforcement-learning markov-decision-process mdp

环境是环境还是代理?我读过的地方环境也有状态。他们两者有何不同?

1 个答案:

答案 0 :(得分:1)

状态代表从代理看到的环境。

如果您要说某个属性是代理的一部分(假设您有一辆汽车,并且声明它的速度属于该代理),那么状态包含此属性,但作为您的环境,它是环境的一部分代理存在于环境中。

然后,当您有多个代理时,它们都可以通过状态“可视化”环境,但是每个代理可以不同。

例如

如果您有多个漫游器纸牌,则每个漫游器会将环境表示为可见纸牌和手中的纸牌。因此,您的所有代理(漫游器)对环境的感知都会有所不同,从而导致代表它们的状态不同。在这种情况下,您可以说“代理的状态”,这只是措辞上的问题。