使用Atari游戏进行深度强化学习:所有游戏使用一个DQN还是49个游戏使用49个DQN?

时间:2019-10-30 10:18:39

标签: reinforcement-learning

我想对《自然》 2015年中的文章“通过深度强化学习进行人级控制”进行说明。当我阅读该书时,我了解到他们使用的DQN具有相同的算法,网络架构和超参数。大!但是他们没有指定是从头开始训练每个游戏,因此我们每个游戏只能获得一个神经网络(对于49个游戏而言,意味着49个神经网络),或者他们是否使用唯一的神经网络来训练所有游戏(平均仅一个神经网络可以玩49场比赛)。

有人知道正确答案吗?因为根本不是一回事!:)

谢谢

1 个答案:

答案 0 :(得分:1)

在您提到的论文中,为49个游戏训练了49个网络:“每个游戏训练了一个不同的网络:所有游戏都使用相同的网络体系结构,学习算法和超参数设置(请参阅扩展数据表1) ,表明我们的方法足够健壮,可以在各种游戏上运行,同时仅包含最少的先验知识”。

有些算法只能训练全部49个游戏的一个网络,例如https://arxiv.org/pdf/1809.04474.pdf