Mask R-CNN的最佳图像尺寸,使用预训练模型(Keras,Tensorflow)更快的R-CNN

时间:2017-12-25 00:50:05

标签: tensorflow keras resnet

许多现有的Tensorflow和Keras CNN代码示例使用相同的大小来训练图像,通常为299 * 299,244 * 244,256 * 256,以及更多。我认为这部分取决于与预先训练的模型以及架构本身的兼容性。

我仍在评估架构,但最终可能会使用Resnet,Inception或Xception,以及Tensorflow或Keras,使用Mask R-CNN(或者可能更快的R-CNN)。要分析的目标图像在1024 * 1024的范围内,但可以分成更小的分区。

鉴于可用的预训练模型,是否有训练图像尺寸可以提供任何优势?我想避免之后调整大小,因为在某些情况下会降低图像的清晰度。

2 个答案:

答案 0 :(得分:1)

好的,我找到了部分答案:

Girshick的快速R-CNN显然对输入图像进行内部缩放,使得它们的较短尺寸为600像素,但较大的边缘被钳制在1000像素。听起来这是由于可用GPU的内存限制。

鉴于图像缩放将导致CPU命中,并且还会导致边缘的一些混叠,似乎在预处理图像方面可能有优势。

我还没有找到Mask R-CNN的等效信息。

答案 1 :(得分:0)

根据Matterport的实现(可在此处https://github.com/matterport/Mask_RCNN中找到),图像的输入大小为1024x1024。此外,在论文中,他们提到它们使用1024像素作为输入运行的城市景观(我相信请查看附录b)。