许多现有的Tensorflow和Keras CNN代码示例使用相同的大小来训练图像,通常为299 * 299,244 * 244,256 * 256,以及更多。我认为这部分取决于与预先训练的模型以及架构本身的兼容性。
我仍在评估架构,但最终可能会使用Resnet,Inception或Xception,以及Tensorflow或Keras,使用Mask R-CNN(或者可能更快的R-CNN)。要分析的目标图像在1024 * 1024的范围内,但可以分成更小的分区。
鉴于可用的预训练模型,是否有训练图像尺寸可以提供任何优势?我想避免之后调整大小,因为在某些情况下会降低图像的清晰度。
答案 0 :(得分:1)
好的,我找到了部分答案:
Girshick的快速R-CNN显然对输入图像进行内部缩放,使得它们的较短尺寸为600像素,但较大的边缘被钳制在1000像素。听起来这是由于可用GPU的内存限制。
鉴于图像缩放将导致CPU命中,并且还会导致边缘的一些混叠,似乎在预处理图像方面可能有优势。
我还没有找到Mask R-CNN的等效信息。
答案 1 :(得分:0)
根据Matterport的实现(可在此处https://github.com/matterport/Mask_RCNN中找到),图像的输入大小为1024x1024。此外,在论文中,他们提到它们使用1024像素作为输入运行的城市景观(我相信请查看附录b)。