用于物体检测的输入图像尺寸估计中的接收场

时间:2018-07-03 10:02:12

标签: python tensorflow object-detection

我正在使用 Resnet 101 在Tensorflow中使用Faster RCNN。使用从尝试找到blogsdiscussions的最佳参数中收集到的一些信息,我了解到为了获得更高的准确性,我应该考虑图像的输入大小,bbox的相对大小以及接受区域我的模型。

如果我误会我,请纠正我,但后者是在每个模型的体系结构中定义的。因此,在herehere中,我发现 Resnet 101 的接受域为1027。这是否意味着图像大小应该接近于此才能被充分利用?这似乎非常接近git中的配置示例文件中的预定义max_dimension: 1024。唯一不同的是faster_rcnn_resnet101_kitti.config,因为图像太“拉伸”了。在这种情况下,它们似乎并没有为大于1027而烦恼。

我的数据集包含大小不同的图像以及大小不同的bbox。我的策略是尝试在每种情况下创建大小相似的bbox:

  1. 具有小bbox的图像将被裁剪以从单个图像创建更多平铺/修补的图像(缺点是某些bbox会被分割),以使输入图像中的最终bbox大于尺寸(例如30x30)< / li>
  2. bbox较大的图像将被填充以创建较小的bbox。

那么,我应该考虑模型的接受范围吗?

0 个答案:

没有答案