我是强化学习的新手。最近,我一直在尝试训练一个Deep Q网络来解决OpenAI健身房的CartPole-v0,其中解决意味着在连续100集中获得至少195.0的平均得分。
我正在使用2层神经网络,体验重播与包含100万经验的内存,epsilon贪婪策略,RMSProp优化器和Huber损失函数。
使用此设置,解决任务需要几千集(> 30k)。学习有时也很不稳定。那么,深度Q网络振荡并花费这么长时间来学习这样的任务是否正常?还有哪些其他选择(或我的DQN上的改进)可以提供更好的结果?
答案 0 :(得分:2)
根据我的经验,政策梯度适用于推车。此外,它们相当容易实现(如果你眯眼,政策梯度几乎看起来像监督学习)。还有哪些其他选择(或我的DQN的改进)可以提供更好的结果?
一个好的起点:http://kvfrans.com/simple-algoritms-for-solving-cartpole/