应用错误收集

时间：2018-05-15 23:48:13

标签： algorithm machine-learning reinforcement-learning

我在无模型强化学习中遇到SARSA算法。具体来说，在每个州，您都会采取行动a，然后观察新的州s'。

我的问题是，如果你没有状态转换概率方程P{next state | current state = s0}，你怎么知道你的下一个状态是什么？

我的尝试：您是否只是尝试了a行动，然后从环境中观察？

答案 0 :(得分：4)

通常是的，您在环境中执行操作，环境会告诉您下一个状态是什么。

答案 1 :(得分：1)

是的。根据存储在操作值功能中的座席经验，他的行为策略 pi 将当前状态 s 映射到操作 a 他进入下一个状态 s ，然后进入下一个动作 a'。

答案 2 :(得分：0)

在Q学习和SARSA中使用了一种称为TD学习的技术，以避免学习过渡概率。

简而言之，当您在SARSA中进行采样（即与系统交互）并收集数据样本（状态，动作，奖励，下一个状态，下一个动作）时，使用样本来隐式考虑转换概率更新模型的参数。例如，每当您选择当前状态下的一个动作，然后获得奖励和新状态时，系统实际上就根据转移概率p（s'，r | a生成了奖励和新状态。，s）。

您可以在本书中找到简单的说明，

人工智能是一种现代方法