yolo算法的坐标输出代表什么?

时间:2018-09-22 09:41:50

标签: machine-learning deep-learning computer-vision conv-neural-network yolo

我的问题类似于本主题。当我开始考虑yolo算法的输出时,我正在观看Andrew Ng关于边界框预测的演讲。让我们考虑这个示例,我们使用19x19网格和只有一个2类的接收场,因此我们的输出将为=> 19x19x1x5。最后一个维度(大小为5的数组)表示以下内容:

1) The class (0 or 1)  
2) X-coordinate  
3) Y-coordinate  
4) height of the bounding box  
5) Width of the bounding box

我不明白X,Y坐标是代表整个图像的大小还是正好接受域(过滤器)的边界框。在视频中,边界框被表示为接受域的一部分,但逻辑上的接受域比边界框小得多,而且人们可能会修改过滤器的大小,因此将边界框相对于过滤器放置是没有意义的。

那么,基本上,图像边界框的坐标代表什么?

1 个答案:

答案 0 :(得分:1)

来自Understanding YOLO帖子@黑客中午:

  

每个网格单元都预测B边界框以及C类   概率。边界框预测具有5个成分:(x,y,w,   h,信心)(x,y)坐标表示   框,相对于网格单元位置(请记住,如果中心   框不属于网格单元,否则该单元不   对此负责)。这些坐标被标准化为介于   0和1。(w,h)框的尺寸也被标准化为[0,1],   相对于图像尺寸。让我们看一个例子:

     

enter image description here