我目前正与SqueezeDet合作进行检测。我对网络进行了综合数据培训,并且其运行情况相当不错。 detection results
对于我的项目,我希望能够可视化输入的哪些部分与检测过程更相关。因此,在检测到行人的情况下,我假设其像素比例如周围环境更重要。我尝试了几种不同的方法,但是没有一种方法完全令人满意。 我进行了自己的研究,但几乎没有任何有关可视化对象检测的论文。因此,我实现了VisualBackProp,但是results看起来并不乐观。相反,如果我计算relevance的情况看起来会更好一些,但仍然不如预期。 我开始考虑问题可能与我的输出的复杂性有关,对于可能只涉及分类的网络而言,或者像在VisualBackProp论文中一样,只是对转向角的预测。
我想知道是否有人知道哪种可视化技术最适合检测任务。
答案 0 :(得分:0)
您可以尝试仅扩大图像的不同区域,看看它如何影响检测置信度。例如,您可以将包含行人的区域放在黑色背景上,而不是自然背景上,以查看周围环境对事物的实际影响。您还可以添加中度到重度噪点来选择图像区域,并观察哪些区域对应于检测置信度的最大变化。
更直接地,在数学上,您似乎对检测置信度WRT像素数据的梯度感兴趣。根据所使用的深度学习平台的不同,如果您运行一次训练迭代,则可能会获得将直接显示这些梯度的数据层(dL / dx)中的梯度。这只会代表像素数据微小变化的效果-如果您想要获得更多的宏观见解,我想我的第一个建议可能是您唯一的选择。