据我所知,CNN依赖于滑动窗口技术,并且只能指示在给定的边界框中是否存在某种模式。这是真的吗?
可以在没有这些技术帮助的情况下通过CNN实现本地化吗?
答案 0 :(得分:8)
这是图像识别中的一个悬而未决的问题。除了滑动窗口之外,现有方法包括预测图像中的对象位置作为CNN输出,预测边界(将像素分类为属于图像边界)等等。参见例如this paper及其中的参考文献。
另请注意,对于使用最大池的CNN,可以识别有助于对象识别的特征检测器的位置,并使用它来建议可能的对象位置区域。
答案 1 :(得分:2)
最近有一些技术可以在CNN中对这些对象进行本地化。请参阅此文http://cnnlocalization.csail.mit.edu/Zhou_Learning_Deep_Features_CVPR_2016_paper.pdf
它使用一个名为全球平均合并(GAP)的层,并且没有额外的工作,CNN可以本地化它识别的对象。
同时查看这篇非常好的博文: https://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/