SARSA在强化学习中的应用

时间:2018-05-15 23:48:13

标签: algorithm machine-learning reinforcement-learning

我在无模型强化学习中遇到SARSA算法。具体来说,在每个州,您都会采取行动a,然后观察新的州s'

我的问题是,如果你没有状态转换概率方程P{next state | current state = s0},你怎么知道你的下一个状态是什么?

我的尝试:您是否只是尝试了a行动,然后从环境中观察? enter image description here

3 个答案:

答案 0 :(得分:4)

通常是的,您在环境中执行操作,环境会告诉您下一个状态是什么。

答案 1 :(得分:1)

是的。根据存储在操作值功能中的座席经验,他的行为策略 pi 将当前状态 s 映射到操作 a 他进入下一个状态 s ,然后进入下一个动作 a'

Fluxogram of state-action pairs sequences.

答案 2 :(得分:0)

在Q学习和SARSA中使用了一种称为TD学习的技术,以避免学习过渡概率。

简而言之,当您在SARSA中进行采样(即与系统交互)并收集数据样本(状态,动作,奖励,下一个状态,下一个动作)时,使用样本来隐式考虑转换概率更新模型的参数。例如,每当您选择当前状态下的一个动作,然后获得奖励和新状态时,系统实际上就根据转移概率p(s',r | a生成了奖励和新状态。 ,s)。

您可以在本书中找到简单的说明,

  

人工智能是一种现代方法