我正在尝试实施Voxnet -3D Object Detection,并且不确定有关区域投标网络(RPN)的输出的一些细节。下图显示了RPN的输出:
我不确定概率得分图中“ 2”(蓝色圆圈)和“回归”图中“ 14”(蓝色圆圈)的意义是什么。
根据我的理解,在回归图中(参见上图),我们得到H'/ 2 * W'/ 2 * 14,因为14代表两个3D锚框(7个值:x,y,z,l,w,h,theta ,对于每个3D框)。因此,对于每个H'/ 2 * W'/ 2单元,我们得到2个锚点框的值。
至于概率分数图,我们得到H'/ 2 * W'/ 2 * 2,因为2代表两个锚点中每个锚点的概率值。我对吗?
如果我的理解是正确的,则意味着我们仅在概率分数图中预测概率分数(是否存在对象)?这意味着没有类别概率。由于此选择有“汽车检测”和“行人/骑行者”两种不同的模式,因此我的解释确实有意义。也就是说,如果我们处于“汽车检测”模式下,则仅检查是否存在物体(汽车)。因此,我们不需要类概率。如果我错了,请纠正我。