我正在使用 Resnet 101 在Tensorflow中使用Faster RCNN。使用从尝试找到blogs或discussions的最佳参数中收集到的一些信息,我了解到为了获得更高的准确性,我应该考虑图像的输入大小,bbox的相对大小以及接受区域我的模型。
如果我误会我,请纠正我,但后者是在每个模型的体系结构中定义的。因此,在here和here中,我发现 Resnet 101 的接受域为1027。这是否意味着图像大小应该接近于此才能被充分利用?这似乎非常接近git中的配置示例文件中的预定义max_dimension: 1024
。唯一不同的是faster_rcnn_resnet101_kitti.config,因为图像太“拉伸”了。在这种情况下,它们似乎并没有为大于1027而烦恼。
我的数据集包含大小不同的图像以及大小不同的bbox。我的策略是尝试在每种情况下创建大小相似的bbox:
那么,我应该考虑模型的接受范围吗?