artificial-intelligence - 训练 DQN 的实用方法

我是强化学习的新手，当我阅读教程和论文时，似乎大多数 DQN（或基于 DQN 的算法，如 Double DQN 等）每一步学习（更新网络），批量大小从 32 到 512。< /p>

然而，当我在 Atari Games 上使用 4 层 CNN 尝试 DQN 时，它似乎非常慢，每一步都需要半秒以上。这是合理的，因为训练可能很慢。因此，在视频游戏中训练 DQN 的理论方法似乎不太实用（尤其是如果我想要更深的网络来识别更复杂的状态时），除非我有多个 GPU 或像 P100 这样非常出色的 GPU。

所以相反，我尝试在每集结束时学习多个批次，而不是每一步学习一个批次，速度快很多，但基本上表现不佳，三四个小时后得分甚至低于随机移动培训。

那么，在 Video Gameplay RL 中，还有哪些更实用的方法仍然可以取得不错的表现？

任何帮助都会很棒！谢谢。

训练 DQN 的实用方法

0 个答案: