我目前正在实施损失函数,该函数考虑了RPN的建议并将其与基本事实进行比较
从Faster RCNN的论文中,我知道作者谈论RPN,提出x,y,w,h分别是中心坐标,宽度和高度。但是对于我的实现,我需要确切地知道输出是什么,因为这些输出后来都在我的损失中进行了转换。
地面真相框的形状为xmin,ymin,xmax,ymax
。
我对API中Faster RCNN的实现有些不确定,因为那里有两种表示法 到目前为止,我已经看到 x,y,w,h ymin,xmin,ymax,xmax 并且 xmin,ymin,xmax,ymax