深度学习体系结构的输入大小有多重要?

时间:2017-04-18 23:03:46

标签: matlab neural-network deep-learning object-detection

最近,我一直在玩MATLAB的RCNN深度学习示例here。在这个例子中,MATLAB设计了一个基本的15层CNN,输入大小为32x32。他们使用CIFAR10数据集预先训练这个CNN。 CIFAR10数据集也具有大小为32x32的训练图像。之后他们使用一个小的停止标志数据集来微调这个CNN以检测停止标志。这个停车标志的小数据集只有41张图像;因此,他们使用这41个图像来微调CNN,即训练RCNN网络。这是他们检测停车标志的方式: enter image description here 如您所见,边界框几乎覆盖了整个停止标志,除了顶部的一小部分。 使用代码我决定使用PASCAL VOC数据集对CIFAR10数据集上预先训练过的同一网络进行微调,但仅适用于飞机"类。 这些是我得到的一些结果: result 1

result 2

如您所见,检测到的边界框几乎无法覆盖整架飞机;因此,当我评估精度时,这会导致精度为0。据我所知,在MATLAB示例中提到的原始RCNN论文中,输入大小227x227及其CNN有25层。这可能是检测不准确的原因吗? CNN的输入大小如何影响最终结果?

1 个答案:

答案 0 :(得分:1)

几乎肯定是的! 当您通过网络传递图像时,网络会尝试最小化从图像中获取的数据,直到获得最相关的数据。在此过程中,输入会一次又一次地缩小。例如,如果您向网络插入小于所需的图像,则图像中的所有数据可能会在网络中传递时丢失。 在您的情况下,您的结果的可选原因是网络#34;寻找"分辨率有限的功能,也许大飞机的分辨率过高。