应用错误收集

如何理解Keepaway中的RLstep（与Sarsa比较）

时间：2016-10-21 00:32:26

标签： reinforcement-learning sarsa

在“Stone，Peter，Richard S. Sutton和Gregory Kuhlmann。”针对robocup足球运动的强化学习。“Adaptive Behavior 13.3（2005）：165-188。”，RLstep伪代码似乎与Sarsa有点不同（λ），作者说RLStep实现。

以下是RLstep pseudocode，此处是Sarsa(lambda) pseudocode。

困惑的地方是：

Sarsa（λ）伪代码中的第10行更新每个的Q值在e(s,a)添加1之后的状态 - 动作对。但在RLstep 伪代码资格跟踪更新（第19行）不会发生直到值更新后（第17行）。

RLstep中的第18行和第19行似乎与Sarsa（λ）伪代码完全不同。

第20-25行的资格跟踪是什么？

0 个答案:

没有答案

相关问题

如何计算SARSA的资格跟踪？

如何理解Keepaway中的RLstep（与Sarsa比较）

在SARSA中纳入过渡概率

具有神经网络的情境半梯度Sarsa

Sarsa用神经网络解决山地车任务

SARSA在强化学习中的应用

在团结中实施SARSA

在后视图SARSA中计算更新

Python中表格Sarsa算法的伪代码

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？