训练 DQN 的实用方法

时间:2021-04-16 18:01:48

标签: artificial-intelligence reinforcement-learning

我是强化学习的新手,当我阅读教程和论文时,似乎大多数 DQN(或基于 DQN 的算法,如 Double DQN 等)每一步学习(更新网络),批量大小从 32 到 512。< /p>

然而,当我在 Atari Games 上使用 4 层 CNN 尝试 DQN 时,它似乎非常慢,每一步都需要半秒以上。这是合理的,因为训练可能很慢。因此,在视频游戏中训练 DQN 的理论方法似乎不太实用(尤其是如果我想要更深的网络来识别更复杂的状态时),除非我有多个 GPU 或像 P100 这样非常出色的 GPU。

所以相反,我尝试在每集结束时学习多个批次,而不是每一步学习一个批次,速度快很多,但基本上表现不佳,三四个小时后得分甚至低于随机移动培训。

那么,在 Video Gameplay RL 中,还有哪些更实用的方法仍然可以取得不错的表现?

任何帮助都会很棒!谢谢。

0 个答案:

没有答案