应用错误收集

时间：2017-03-13 07:15:51

标签： neural-network reinforcement-learning q-learning openai-gym

我是强化学习的新手。最近，我一直在尝试训练一个Deep Q网络来解决OpenAI健身房的CartPole-v0，其中解决意味着在连续100集中获得至少195.0的平均得分。

我正在使用2层神经网络，体验重播与包含100万经验的内存，epsilon贪婪策略，RMSProp优化器和Huber损失函数。

使用此设置，解决任务需要几千集（> 30k）。学习有时也很不稳定。那么，深度Q网络振荡并花费这么长时间来学习这样的任务是否正常？还有哪些其他选择（或我的DQN上的改进）可以提供更好的结果？

答案 0 :(得分：2)

还有哪些其他选择（或我的DQN的改进）可以提供更好的结果？

根据我的经验，政策梯度适用于推车。此外，它们相当容易实现（如果你眯眼，政策梯度几乎看起来像监督学习）。