我正在尝试使用yolov3检测道路物体(很小)。为此,我的数据集由大小为3840x400像素的图像组成。我当前正在使用的网络实现(由Ultralytics 1实现的火炬实现)将输入图像平方作为输入。例如,如果我通过一个3840x400 px的图像,并将img_size设置为1000 px,则它将图像的大小调整为1000x400 px,然后将其平方最大为1000x1000 px(用黑色值对其余的600个像素进行信箱处理,以便不会更改高度方面)。那里的CNN的大多数实现似乎都可以使用平方图像作为网络体系结构的输入。我的问题是:如果我手动将网络体系结构更改为非平方尺寸(例如1000x400像素),yolo仍然可以工作。为什么艺术中的大多数CNN都使用平方图像?
答案 0 :(得分:0)
如果所有数据集均由矩形而不是正方形组成。例如3840x400
。
比使用平方输入来构建具有矩形输入的体系结构更好的方法。
在大部分CNN中使用方形图像的原因是“方形是一般”
有时候,在人体姿势估计区域中,他们不使用平方图像作为输入。
他们使用矩形图像,例如192x256
,因为几乎人类站在图像中。