应用错误收集

非平方图像作为YOLOv3的输入

时间：2019-03-12 11:37:58

标签： deep-learning computer-vision conv-neural-network pytorch yolo

我正在尝试使用yolov3检测道路物体（很小）。为此，我的数据集由大小为3840x400像素的图像组成。我当前正在使用的网络实现（由Ultralytics 1实现的火炬实现）将输入图像平方作为输入。例如，如果我通过一个3840x400 px的图像，并将img_size设置为1000 px，则它将图像的大小调整为1000x400 px，然后将其平方最大为1000x1000 px（用黑色值对其余的600个像素进行信箱处理，以便不会更改高度方面）。那里的CNN的大多数实现似乎都可以使用平方图像作为网络体系结构的输入。我的问题是：如果我手动将网络体系结构更改为非平方尺寸（例如1000x400像素），yolo仍然可以工作。为什么艺术中的大多数CNN都使用平方图像？

1 个答案:

答案 0 :(得分：0)

如果所有数据集均由矩形而不是正方形组成。例如3840x400。

比使用平方输入来构建具有矩形输入的体系结构更好的方法。

在大部分CNN中使用方形图像的原因是“方形是一般”

有时候，在人体姿势估计区域中，他们不使用平方图像作为输入。他们使用矩形图像，例如192x256，因为几乎人类站在图像中。