上下文:使用CNN在图像中定位对象。存在由类C1和C2表示的两种对象。 CNN的输出是6个节点,即C1,C2,x,y,w,h。其中,如果类别为C2,则[C1,C2] = [0,1],如果类别为C1,则为[1,0]。 x,y表示包围对象的包围盒的中心,w,h表示包围盒的宽度和高度。
问题:现在,我一直在尝试计算softmax交叉熵损失分类(即在C1,C2节点上),并在x,y,w和h节点上使用L2损失。我面临的问题是,一种损失在另一种损失中占主导地位,并且赋予他们权衡以平衡彼此的影响的效果不是很好。谁能建议一个兼顾分类和本地化的良好损失函数。
注意: 1.图像中始终有物体。 2.我尝试了yolo损耗,并正在研究人们可能发现对这种应用有用的其他损耗。