Sarsa用神经网络解决山地车任务

时间:2017-07-29 15:24:27

标签: reinforcement-learning sarsa

我正在尝试实施Sutton的书中描述的用于估计q的情节半渐变Sarsa来解决Mountain Car Task。要近似q,我想使用neural network。因此,我想出了this代码。但遗憾的是,我的经纪人并没有真正学会解决这个问题。在某些情节中,解决方案非常快(100-200步),但有时代理需要超过30k步。我想,我在实施中犯了一些错误,但我自己找不到。有人可以帮助我,并指出我的实施中的错误/错误吗?

1 个答案:

答案 0 :(得分:1)

我通过更改网络结构解决了这个问题:我没有使用(state, action)对来预测它的Q-value,而是按照DQN的方式更改了它:我预测给定状态的所有三种可能动作的value,然后根据此预测选择动作。我以前的方法无法找到问题,但至少现在这个问题已经解决了。