非平方图像作为YOLOv3的输入

时间:2019-03-12 11:37:58

标签: deep-learning computer-vision conv-neural-network pytorch yolo

我正在尝试使用yolov3检测道路物体(很小)。为此,我的数据集由大小为3840x400像素的图像组成。我当前正在使用的网络实现(由Ultralytics 1实现的火炬实现)将输入图像平方作为输入。例如,如果我通过一个3840x400 px的图像,并将img_size设置为1000 px,则它将图像的大小调整为1000x400 px,然后将其平方最大为1000x1000 px(用黑色值对其余的600个像素进行信箱处理,以便不会更改高度方面)。那里的CNN的大多数实现似乎都可以使用平方图像作为网络体系结构的输入。我的问题是:如果我手动将网络体系结构更改为非平方尺寸(例如1000x400像素),yolo仍然可以工作。为什么艺术中的大多数CNN都使用平方图像?

1 个答案:

答案 0 :(得分:0)

如果所有数据集均由矩形而不是正方形组成。例如3840x400

比使用平方输入来构建具有矩形输入的体系结构更好的方法。

在大部分CNN中使用方形图像的原因是“方形是一般”

有时候,在人体姿势估计区域中,他们不使用平方图像作为输入。 他们使用矩形图像,例如192x256,因为几乎人类站在图像中。