当我阅读Yolo_9000报纸时,有一件事让我很困惑 在Yolov2结构中,最终的图层大小为13x13,似乎每个单元格包含来自原始图像的大约32x32图像信息。对我来说,它似乎只使用本地信息来适应对象检测,我不确定它是否足够或强大。
在v1版本中,有一个完整的连接层可以将本地信息与全局信息结合起来,我觉得更合理。
或者我理解错了,这个问题确实困扰我。 感谢..
答案 0 :(得分:0)
但这些信息已被卷入使用。每个3x3滤波器使用每个像素处的最后一个滤波器的周围信息。这些像素又已经卷积并使用其像素的周围信息,依此类推。结合最大池化缩小图像大小,整个图像就像这样。