应用错误收集

我正在尝试开发一种全卷积神经网络，以估计包含已知3D模型渲染的图像中关键点的2D位置。我已经阅读了许多有关此主题的文献（人体姿势估计，基于模型的估计，具有已知结构的被遮挡对象的图形网络），但到目前为止，我还没有找到允许估计任意数的方法。图像中不同类别的关键点的集合。我见过的每一种方法都经过训练，可以输出k个关键点类的k个热图，每个热图一个关键点。就我而言，我想为k个关键点类回归k个热图，每个热图具有任意数量的（不重叠）点。

在此玩具示例中，网络将为每种形状在上顶点的每个可见位置周围输出热图。多维数据集的顶部有4个顶点，挤压的五边形有2个顶点，金字塔只有1个顶点。有时点在屏幕外或被遮挡，我不希望输出遮挡点的热图。

该体系结构是6到6层的Unet（如本文https://arxiv.org/pdf/1804.09534.pdf所示）。地面真相热图是围绕每个关键点的正态分布。当训练批量大小为5且损失为l2的网络时，网络会学会从不进行任何估算，仅输出空白图像。数据类型将正确转换，并从0到1输入标准化，从0到255输出标准化。我不确定如何解决此问题，我的一般做法是否有任何危险信号？如果没有明显的问题，我会发布代码...

完全卷积网络的直接热图回归

0 个答案: