我正在尝试开发一种全卷积神经网络,以估计包含已知3D模型渲染的图像中关键点的2D位置。我已经阅读了许多有关此主题的文献(人体姿势估计,基于模型的估计,具有已知结构的被遮挡对象的图形网络),但到目前为止,我还没有找到允许估计任意数的方法。图像中不同类别的关键点的集合。我见过的每一种方法都经过训练,可以输出k个关键点类的k个热图,每个热图一个关键点。就我而言,我想为k个关键点类回归k个热图,每个热图具有任意数量的(不重叠)点。
在此玩具示例中,网络将为每种形状在上顶点的每个可见位置周围输出热图。多维数据集的顶部有4个顶点,挤压的五边形有2个顶点,金字塔只有1个顶点。有时点在屏幕外或被遮挡,我不希望输出遮挡点的热图。
该体系结构是6到6层的Unet(如本文https://arxiv.org/pdf/1804.09534.pdf所示)。地面真相热图是围绕每个关键点的正态分布。当训练批量大小为5且损失为l2的网络时,网络会学会从不进行任何估算,仅输出空白图像。数据类型将正确转换,并从0到1输入标准化,从0到255输出标准化。我不确定如何解决此问题,我的一般做法是否有任何危险信号?如果没有明显的问题,我会发布代码...