我正在尝试使用caffe为Custom数据集训练更快的RCNN。我已经承认,考虑到输入图像大小为600 * 1000,建立了更快的RCNN caffe模型。我的自定义数据集中有很多尺寸为300 * 400的图像。我是否需要将图像填零至600 * 100或高档图像?如果两者都不是,那么在将图像作为输入提供给网络之前应该对图像进行适当的修改。请建议。
谢谢。
答案 0 :(得分:3)
更快的RCNN接受了帕斯卡VOC图像的培训,图像尺寸与您的图像尺寸非常接近(pascalVOC约为500×375)。您不需要填充或升级图像,如果您使用原始python代码,它是整个过程的一部分。我认为你可以按原样使用它。
在我看来,如果图像很大而物体很小,你应该只调整输入图像的大小。
例如,我有3000x4000图像,需要检测100x100个对象。调整大小到600x1000后,我的对象接近25x25。但是感知场在网络中是硬编码的(分别对于ZF和VGG为171和228像素)。所以在这种情况下,我的目标对于这个感受野来说会非常小。这意味着描述正面的特征实际上包含的背景信息比前景更多......
在这种情况下,我认为最好的方法是剪切训练阶段的图像(你可以有不同的训练和测试比例)。