reinforcement-learning - Sarsa用神经网络解决山地车任务

Sarsa用神经网络解决山地车任务

时间：2017-07-29 15:24:27

标签： reinforcement-learning sarsa

我正在尝试实施Sutton的书中描述的用于估计q的情节半渐变Sarsa来解决Mountain Car Task。要近似q，我想使用neural network。因此，我想出了this代码。但遗憾的是，我的经纪人并没有真正学会解决这个问题。在某些情节中，解决方案非常快（100-200步），但有时代理需要超过30k步。我想，我在实施中犯了一些错误，但我自己找不到。有人可以帮助我，并指出我的实施中的错误/错误吗？

1 个答案:

答案 0 :(得分：1)

我通过更改网络结构解决了这个问题：我没有使用(state, action)对来预测它的Q-value，而是按照DQN的方式更改了它：我预测给定状态的所有三种可能动作的value，然后根据此预测选择动作。我以前的方法无法找到问题，但至少现在这个问题已经解决了。

如何用MLP神经网络解决XOR问题？
神经网络解决卡概率
神经网络中的Q学习 - 山地车
使用学习的人工神经网络来解决输入问题
神经网络解决AND
训练卷积神经网络识别车牌号
我该如何解决这个分层网络？
具有神经网络的情境半梯度Sarsa
Sarsa用神经网络解决山地车任务
使用递归神经网络解决时间序列任务

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？