我在无模型强化学习中遇到SARSA算法。具体来说,在每个州,您都会采取行动a
,然后观察新的州s'
。
我的问题是,如果你没有状态转换概率方程P{next state | current state = s0}
,你怎么知道你的下一个状态是什么?
答案 0 :(得分:4)
通常是的,您在环境中执行操作,环境会告诉您下一个状态是什么。
答案 1 :(得分:1)
是的。根据存储在操作值功能中的座席经验,他的行为策略 pi 将当前状态 s 映射到操作 a 他进入下一个状态 s ,然后进入下一个动作 a'。
答案 2 :(得分:0)
在Q学习和SARSA中使用了一种称为TD学习的技术,以避免学习过渡概率。
简而言之,当您在SARSA中进行采样(即与系统交互)并收集数据样本(状态,动作,奖励,下一个状态,下一个动作)时,使用样本来隐式考虑转换概率更新模型的参数。例如,每当您选择当前状态下的一个动作,然后获得奖励和新状态时,系统实际上就根据转移概率p(s',r | a生成了奖励和新状态。 ,s)。
您可以在本书中找到简单的说明,
人工智能是一种现代方法