应用错误收集

如何使用两个不同大小的图像作为深层网络的输入？

时间：2018-04-25 01:31:27

标签： deep-learning

我正在尝试训练深度神经网络，该网络使用来自两个单独图像的信息，以获得类似于this的最终图像输出。不同之处在于我的两个输入图像没有任何空间关系，因为它们是具有不同信息量的完全不同的图像。如何使用这种输入使用双流CNN或任何其他架构？

供参考：一张图片尺寸（5184x3456），另一张图片尺寸（640x240）。

1 个答案:

答案 0 :(得分：0)

首先：你有两张图片并不重要。当您将一个图像作为输入时，单个图像可以具有不同的大小时，您会遇到完全相同的问题。

有多种策略可以解决这个问题：

裁剪和缩放：只需按所需大小强制输入即可。进行裁剪以确保宽高比正确。有时，相同的图像，但它的不同部分然后被送入网络，结果被合并（例如平均）。
Convolutions + Global pooling ：卷积层不关心输入大小。在你关心它的时候，你可以global pooling。这意味着您有一个池区域，无论大小如何，它都将始终覆盖整个输入。
特殊图层：我不记得这个概念或名称，但是有些图层允许不同大小的输入...也许它是基于注意力的方法之一？

合并两个输入

在您选择的框架中寻找“合并层”或“连接层”：

Keras

另见

Keras：Variable-size image to convolutional layer
Caffe：Allow images of different sizes as inputs