我的问题类似于本主题。当我开始考虑yolo算法的输出时,我正在观看Andrew Ng关于边界框预测的演讲。让我们考虑这个示例,我们使用19x19网格和只有一个2类的接收场,因此我们的输出将为=> 19x19x1x5。最后一个维度(大小为5的数组)表示以下内容:
1) The class (0 or 1)
2) X-coordinate
3) Y-coordinate
4) height of the bounding box
5) Width of the bounding box
我不明白X,Y坐标是代表整个图像的大小还是正好接受域(过滤器)的边界框。在视频中,边界框被表示为接受域的一部分,但逻辑上的接受域比边界框小得多,而且人们可能会修改过滤器的大小,因此将边界框相对于过滤器放置是没有意义的。
那么,基本上,图像边界框的坐标代表什么?
答案 0 :(得分:1)
来自Understanding YOLO帖子@黑客中午:
每个网格单元都预测B边界框以及C类 概率。边界框预测具有5个成分:(x,y,w, h,信心)。 (x,y)坐标表示 框,相对于网格单元位置(请记住,如果中心 框不不属于网格单元,否则该单元不 对此负责)。这些坐标被标准化为介于 0和1。(w,h)框的尺寸也被标准化为[0,1], 相对于图像尺寸。让我们看一个例子: