如何使用两个不同大小的图像作为深层网络的输入?

时间:2018-04-25 01:31:27

标签: deep-learning

我正在尝试训练深度神经网络,该网络使用来自两个单独图像的信息,以获得类似于this的最终图像输出。不同之处在于我的两个输入图像没有任何空间关系,因为它们是具有不同信息量的完全不同的图像。如何使用这种输入使用双流CNN或任何其他架构?

供参考:一张图片尺寸(5184x3456),另一张图片尺寸(640x240)。

1 个答案:

答案 0 :(得分:0)

首先:你有两张图片并不重要。当您将一个图像作为输入时,单个图像可以具有不同的大小时,您会遇到完全相同的问题。

有多种策略可以解决这个问题:

  • 裁剪和缩放:只需按所需大小强制输入即可。进行裁剪以确保宽高比正确。有时,相同的图像,但它的不同部分然后被送入网络,结果被合并(例如平均)。
  • Convolutions + Global pooling :卷积层不关心输入大小。在你关心它的时候,你可以global pooling。这意味着您有一个池区域,无论大小如何,它都将始终覆盖整个输入。
  • 特殊图层:我不记得这个概念或名称,但是有些图层允许不同大小的输入...也许它是基于注意力的方法之一?

合并两个输入

在您选择的框架中寻找“合并层”或“连接层”:

另见