Deepmind Deep Q Network(DQN)3D Convolution

时间:2016-01-09 10:26:28

标签: deep-learning conv-neural-network q-learning

我正在阅读DQN网络上的深刻自然论文。 除了一个,我几乎得到了一切。我不知道为什么之前没有人问过这个问题,但对我来说似乎有些奇怪。

我的问题: DQN的输入是84 * 84 * 4图像。第一个卷积层由32个8 * 8的过滤器组成,带有stide 4.我想知道这个卷积阶段的结果究竟是什么?我的意思是,输入是3D,但我们有32个过滤器都是2D。第三维(对应于游戏中最后4帧)是如何参与卷积的?

有什么想法吗? 谢谢 阿明

1 个答案:

答案 0 :(得分:3)

您可以将第三维(代表最后四个帧)视为进入网络的通道。

如果组合三个RGB通道以创建灰度表示,则会出现类似情况。在这种情况下,您将分别执行每个卷积(对于每个通道)并对贡献求和以给出最终输出要素图。

DeepMind人员参考了本文(What is the Best Multi-Stage Architecture for Object Recognition?),这可能会提供更好的解释。