“我们的系统将输入图像划分为S * S网格。 如果对象的中心落入网格单元,则该网格单元 负责检测该对象。”
这是来自YOLO纸,输入图像分为S * S网格,这意味着conv的输出是S * S的大小,对吧?
如果是,这些小单元格(7 * 7)如何连接到输入图像的原始区域?我知道conv的工作原理,但是边界框如何进行回归?
答案 0 :(得分:0)
原始大小的地面真相将“调整为” SxS,在这种情况下,Yolov1中为7x7,Yolov2中为13x13 我认为这个Yolo实现可能对您了解yolo的构建方式很有用: https://github.com/1991viet/Yolo-pytorch