我目前正在从事人群密度图估算项目。我正在研究的论文在IUML上。
这是整体网络结构的样子 enter image description here
我已经尝试在Keras上实现此功能,并在回归输出的1x1卷积之前添加一个额外的上采样,以确保预测的图像大小与地面真相/标签相同。
但是,我的损失(欧几里得距离)非常低,在第一个时期为0.1623,MSE为1.0188e-6。
现在,地面真相(密度图)是一张图像,其值的范围从大约6.25e-12到大约0.001。其背后的想法是将高斯模糊(总计为1)应用于图像上的每个头部,因此对图像求和可得出图像内的估计人数。但是,(我猜)由于这些极低的值,网络被预测为零输出,从而减少了损耗,MAE和MSE。我已经证实了这一点,并且确实可以预测出全黑图像。预测输出中像素值的总和也为0。有什么办法可以解决?
我尝试过的事情:
任何帮助将不胜感激!